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从 一 直面 弃 题 开始 说 起 


我 每 次 当面 试 官 ， 都 要 伪装 成 无 所 不 知 的 大 牛 。 

这 当然 是 无 奈 的 选择 一 一 现在 每 封 简历 都 那么 浴 眼 ， 不 装 一 下 们 直 
镇 不 住 场面 。 比 如 尚未 毕业 的 本 科 生 ， 早 就 拿 下 CCIE 认 证 ; 留 欧 两 年 
的 海归 ， 已 然 精通 现 、 法 、 德 三 门 外 语 ; 最 历 害 的 一 位 应 聘 者 ， 研 究 生 
阶段 就 在 国际 上 首次 提出 了 计算 机 和 生物 学 的 路 界 理论 .………. 可 怜 我 这 个 
老实 人 在 一 开场 还 能 北 装 ， 到 了 技术 环 市 束 芒 不 住 提 问 基 础 知识 ， 一 下 
子 把 气氛 从 学 术 殿 党 拉 到 建筑 工地 。 不 过 就 是 这 些 最 基础 的 问题 ， 却 尝 
第 把 徐 历 精 现 们 难 住 。 本 文 要 介绍 的 便 是 其 中 的 一 道 。 

问题 : 两 合 服务 器 A 和 B 的 网 络 配置 如 下 《〈 见 图 1) ，B 的 子 网 掩 人 码 
本 应 该 是 255.255.255.0， 补 不 小 心 配 成 了 255.255.255.224。 它 们 还 能 正 
利通 信 吗 ” 


服务 器 A: 服务 器 B: 











Internet Protocol (TCPZIP) Properties 人 2x| ed ed 
‘Gereral | 悟 辣 站 | | 
You can gt FF settings assioried automatically if your network supports YOU can get IP settings assigned automatically if your retbwork supports 
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人 Er | en ET 
Subnet mask: Subnat mack: 255 . 255 ,255 ,224 
Cefauk 9steway: | Cef ault gateway: [192 ,168 ,26 ;2 | 
btan bls se er eldess bomateally (tl Hs to 
— Lse the Following DMS server addresses Lisa the folowing DNS server addres56 一 一 一 
Eraferred CMS Sefwer: | Praferred DNS server: 和 
Dhanate CMS server: | Albarmae CHS serwer: 人 








很 多 应 阵 者 虱 会 沉思 民 久 【他们 一 定 在 心里 把 我 写 了 很 多 所 了 ) ， 
然后 给 出 下 面 这 些 形形色色 的 丛 条 。 


答案 1: “A 和 B 不 能 通信 ， 因 为 ..……. 如 果 这 样 都 行 的 话 ， 子 网 掩 码 
还 有 什么 用 ? ”( 这 位 的 反 证 法 听 上 去 很 有 道理 ! ) 

答 蓉 2:“A 和 B 能 通信 ， 因 为 它们 可 以 通过 ARP 广 播 获 得 对 方 的 
MAC 地 址 。”( 那 子 网 掩 码 还 有 什么 用 ?楼 上 的 反 证 法 用 来 反 驶 这 位 正 
ue 

答案 3: “A 和 B 能 通信 ， 但 所 有 包 都 要 通过 默认 网 关 192.168.26.2 转 
及 。” (请问 这 么 复杂 的 结果 你 是 怎么 想到 的 ? ) 

答案 4: “A 和 B 不 能 通信 ， 因 为 ARP 不 能 跨 子 网 。”( 这 个 答案 听 上 
去 真 像 是 经 过 认真 思考 的 。) 

以 上 哪个 答案 是 正确 的 ? 还 是 都 不 正确 ?如 和 果 这 是 你 第 一 次 听 到 这 
道 题 ， 不 妨 俘 下 来 思考 一 下 。 

真相 只 有 一 个 ， 应 聘 者 的 答 守 却 是 五 全 八 门 。 可 见 对 网 络 概念 的 理 
解 不 容 侣 糊 ， 人 否则 甜 之 坚 厘 ， 读 以 千里 。 要 知道 ， 这 还 只 是 基本 的 路 由 
交换 知识 ， 假 如 涉及 复杂 概念 ， 结 果 了 驶 更 不 用 说 了 。 

问题 是 即便 我 们 对 着 教材 忠文 鄙 字 ， 也 不 一 定 能 悟 出 正确 答 宁 。 这 
个 时 候 ， 束 可 以 借助 Wireshark 的 抓 包 与 分 析 功 能 了。 我 手头 束 有 了 两 台 
Windows 服 务 右 ， 己 经 按照 面试 题 配 好 网 络 。 如 果 你 以 前 没有 用 过 
Wireshark， 就 开始 第 一 次 杀 密 接触 吧 。 

1. 从 http:/www.wireshark.org/download.html 免 费 下 载 安装 包 ， 并 在 
服务 占 B 上 闭 好 (把 所 有 可 选项 都 疾 上 ) 。 

2. 局 动 Wireshark 软 件 ， 单 击 荣 单 栏 上 的 Capture， 上 再 单 击 Interfaces 
按钮 〈 见 图 2) 。 
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图 2 
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3. 服务 费 B 上 的 所 有 网 卡 都 会 显示 在 弹出 的 新 窗口 上 〈 见 图 3) ， 


在 要 抓 包 的 网 卡 上 单 击 Start 投 钮 » 


wireshark: Captine Interfaces 
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图 3 





4. 在 服务 器 B 上 ping ”A 的 IP 地 址 ， 结 果 是 通 的 ( 见 图 4) 。 该 操作 
产生 的 网 络 包 已 经 被 Wireshark 捕 获 。 


i Command Prormnpt 

Hicrosoft Wirndows [Ucrsicon G2 .3799] 
一 solt Corp: 
村 
a ls es A i 汪 二 吉 则 臣民 僵硬 开 矶 二 二 总 : 


Reply from i192.169.26.129: bytcs-}2 tine*ims TTL-1i12¢8 
| 1 ep -世相 二 玫 芝 上 U 生 所 三 汕 本 证 工 加 且 世 六 mi 大 上 荆 二 三 才 忆 邮 
Reply froaom 392.18.26.129: hyutes=32 tineclms TTEL=128 
| I 1 eA Be ee 二 天 让 下 六 三 玉 二 本 于 而 层 拉 二 轴 六 工 工 二 三 并 之 出 


下 工 看 可 号 机关 七 开 全 二 开 丰 和 二 再 卫 - 土 池 过 < 全 旋律 。 过 昌 ee 
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Nopproxinate Fournd trip tintes 1n milli seconds: 

{inimum = Wms, Naximun = Bms, Noueraye = Bms 


本 :DCUnenta an et 让 Lngsshaministerater 





图 4 


5. 在 Wireshatk 的 末 单 位 上 ， 再 次 蛙 击 Capture， 然 后 蛙 击 Stop。 

6. 在 Wireshark 的 京 单 栏 上 ， 单 击 File， 再 单 击 Save， 把 网 络 包 保存 
到 人 硬盘 上 《这 一 步 并 非 必需 ， 但 存档 是 个 好 习惯 ) 。 

7. 收集 每 台 设 备 的 MAC 地 址 以 备 分 析 。 


。 服 务 器 A: 00:0c:29:0c:22:10 
。 服 务 器 B: 00:0c:29:51:f1:7b 
。 时 认 A 网关 : 00:50:56:e7:2f:88 


现在 可 以 分 析 网 络 包 了 。 如 图 5 所 示 ，Wireshark 的 界面 非常 直观 。 
最 上 面 是 Packet List 窗 口 ， 它 列 出 了 所 有 网 络 包 。 在 Packet List 中 选 定 的 


网 络 包 会 详细 地 显示 在 中 间 的 Packet Details 窗 口中。 由 于 我 在 Packet 
List 中 选 定 的 古 3 写 包 ， 有 所 以 图 5 中 看 到 的 束 古 Frame 3 的 详情 。 最 后 下 是 
Packet Bytes Details 窗 口 ， 我 们 一 般 不 会 用 到 和 它 。 


国 Brora_ nbnei_ filter.cap pe 


Ble Eddi Vew Ge Gaplume Arnayrs Satsiics Velephory Jools WE tienal Help 
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| 
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tis, = Soarce Destinatican Time Irde 
1 Vmare. 51:1: rb [ 晤 二 ET [二 忆 2013-04-02 14:18:d7. 093179 eho has 192,169.,265.27 Tell 192.168.26.,3 
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Ep 于 而 . 芋 节 各。 于 扣 让 于 = 各 直 -站 邓 竹下 :工本 3 二 下, 辣 友 和 了 了 本 Echo tping) request 1d=0e0200, seq=4508/18, ttl=l28 
Pe -| L302 4 和 :于 用 .站 相 本 1 Eeha Cpinga) Feply 1d-0x0200, Sedq=4608/1, ttl1=128 
192,168.26.129 -2013-04=02 14:18:49,098809 [ Echo pingy Fedquest .10 ee 站/ ， 1=12 有 有 
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] Im 
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图 5 


接 下 来 看 看 每 个 包 都 做 了 些 什么 。 
1 号 包 《“ 见 图 6) : 


| wa， 2 TCe Lestination Tirne Protacol ‘Infe 
| 1 vmaare_ Si:f1:7b Broadcast 20]3-04-02 14:18:47.093179 ARP Wha has 192.16B.26.2? Tell i192.1468.26.3 
| | BT 
加 Frame 1: 42 bytes on wire C336 bits}), 42 bytes captured. (336 bits} 
| 再 Ethermet IT, Srct: YmAare_ ifi:7?b (D0:0c:29:351:f1i:7?b), Dst: Broadcast 个 个 :合生 :于 于 :下 下 :于 下 :下 三 
|@ Bddress Resolution Protocol (regquest) 

图 6 













































































服务 器 B 通 过 ARP 广 播 查 询 默 认 网 关 192.168.26.2 的 MAC 地 址 。 为 什 
么 我 ping 的 是 服务 器 A 的 IP，B 却 去 查询 默认 网 关 的 MAC 地 址 呢 ? 这 是 
因为 B 根 据 自 己 的 子 网 掩 码 ， 计 算出 A 属于 不 同 子 网 ， 跨 子 网 通信 和 需要 
默认 网 天 的 转发 。 而 要 和 默认 网 关 通 信 ， 束 需要 获得 其 MAC 地 址 。 

2 福 包 〈( 风 图 7) : 


No. = Sournce Destirnatiom Tirme Protocol :Info 
2 VmMaare_ er :2:8E Vmware Sl:fli:2bh 2013-04-02 14:18:47.,.003476 ARP 92.168.26,2 15 at O00:5D:56e7 :2f :se 
二 | | 





ethernet 11, sre: vmware er :2f:gs (O050'56:e7:2f:88), Dst: vmware_51 :TIi:7h OO0: Oc'29:51:T1:7b) 
sddress Resolution Protocol (reply) 


默认 网 关 192.168.26.2 回 B 回 复 了 目 己 的 MAC 地 址 。 为 什么 这 些 


MAC 地 址 的 开头 明明 是 “00:50:56? 或 者 “00:0c:29”，Wireshark 上 显示 出 
来 却 都 是 “Vmware”? 这 是 因为 MAC 地 址 的 前 3 个 字 节 表示 厂商 。 而 
00:50:56 和 00:0c:29 都 被 分 配给 Vmware 公 司 。 这 是 全 球 统一 的 标准 ， 所 
以 Wireshark 于 脆 显 示 出 广 商 名 了 。 

3 号 包 (多 图 8) : 


No= Scoure -Destination Tim Protocol Jnfe 
计 | 1 168. 26:129 2645- O402 1d:18'a7. O93500 ICMPR Echeo (ping) request 1id=0x0200 seq=4352/17, ttl=128 
加 | 


|E Frame 3: 7d bytes on wire (592 bitsy, 7d bytes captured 592 bitsy 
thermet IIs SF Wyare Fi: ?7b es 29; 1: 全 :7b) Dst; vmware_er:2f;8e (O00: 50;56:e7:2f;88) 
Sre;: i02.168.26.3 (192.1068.26.3), Dst; 192.108.26:129 (192.108.26; 二 2 





图 8 


B 发 出 ping 包 ， 指 定 Destination IP 为 A， 即 192.168.26.129。 但 
Destination On (Destination MAC 可 
以 在 图 8 中 的 Packet Details 中 看 到 ) 。 这 表明 B 和 和 希望 默认 网 天 把 包 转 发 给 
A。 人 至 于 玖 认 网 天 有 没有 转 有 发， 我 们 目前 无 从 得 知 ， 除 非 在 网 关上 也 抓 


站 包 。 
Nm, 2 Source Lhestimaticn Tirme protocosl Infs 
vmwareE Oc:22:10 Broadcast 2D013-04-02 ld-18-47.094076 MRP Who has 192.1658.26.37 Tell 132.168. 26.129 
站 0 


e 480 bits), 0 bvytes captured (480 bits 





i Tee II， Sr Wha ee ee Dst: Broadcast ctf:ftf:ftft:tt:tf: tty 
| i n Prococol (requesty 


B 收 到 了 A 发 出 的 ARP 三 播 ， 这 个 广播 查 询 的 是 B 的 MAC 地 址 。 
是 因为 在 A 看 来 ，B 属 于 相同 子 网 ， 辣子 回信 无 需 趴 认 网 关 的 参 ， 
只 要 通过 ARP 获 得 对 方 MAC 地 址 就 行 了 。 这 个 包 也 表明 默认 网 关 成 功 
地 把 也 发 出 的 ping 请 求 转发 给 A 了 ， 人 否则 A 不 会 无 缘 无 故 和 营 试 和 B 通 信 

5 了 包 ( 见 图 10) : 


已， SOUICE Destination Tirvre Protoecol nifo 
5 Vware_ 1:f1li:7h vmware_ Oc:22:10 ?013-04-02 14:18:47.094104 丙 民 忆 192. 168.260.3 15 ac O00:0Cc:29: 51:fi:7b 














tsy, d42 bytes captured (336 birsy 
FT :了 





B 回 复 了 A 的 ARP 请 求 ， 把 自己 的 MAC 地 址 告诉 A。 这 说 明 B 在 执行 
ARP 回 复 时 并 不 考虑 子 网 。 虽 然 ARP 请 求 来 自 其 他 子 网 的 PP， 但 也 照样 


6 号 包 ( 见 图 11) : 


Nao: = So0urce Desti Tirme Protocol lnfe 

192.168. 26.129 192: ee 2 所 -3 2013-04=-02 14:18:47. 004393 ICRMIP Eche -png reply id=Dx0200, seq=4352/17, tt1=128 
EE [ 让 es capt yr ed 
IE Ethernet II, sre: Vmware Oc:22:10 (00:0 
EIntermet Protocol, Src: 
EE INternet Control Message Protocol 





有 :29:0c:22:10), Dst: are 1:t1i:7b {00:0c:;29; LiF 
192.168, 26.129 C192. 168, 2 129) ， Dst: 192.168.26.3 {92.168.26. 2 


图 11 


B 终 于 收 到 了 A 的 ping 回 复 。 从 MAC 地 址 00:0c:29:0c:22:10 可 以 看 
出 ， 这 个 包 是 从 A 直 接 过 来 的 ， 而 不 是 通过 默认 网 关 的 转 肥 。 
7、8、9、10 扎 包 《〈 上 见 图 12) : 


Ms, FUTce Dastinatio Tirm Protocol Jrnfe 















































+ 192.168.26:3 12; i Fa Fn a 3 4-02 1d:18:48.084739 IERIE Echo pirngy) reguest 1id=-0X0200, Seq=dd08/ 1, TTI=128 
B 192.168. 26.129 192.168. 26.3 2013-04d -De 1d4:1B:d8. E541 IERIF Etho (pirgy reply 1d-000200, seq=4608/18, TTI-128 
9 192.168.25.3 192.168.26.129 2013-0Q4-02 14:18:d49.098s IP Echo (pingy request 1d-0xN0200, Seq=4£64/ 19, TLI=128 
10 192.168. 26.129 1 1 .3 2013-04-02 14:1B:d9. O09351 LIF ECho tpirgy reply 1d-000200, seq=d86d/19,. TTI-128 
a | Im 
E Frame 2 1d bytes on wire (92 bits), 4 bytes captured ee es ts 
亲 Ethernmnet II, SFre: Wmwa a fi:7bh (O00c 29:51.f1:7b)， 


[了 ee nO ber 2fT:B8) 
FT 32 Clg2. 108. 26:129) 


1 sre: i192.108.2603 (192.108.26-3), Dst: se -1 





图 12 


都 是 重复 的 ping 请 求 和 ping 回 复 。 因 为 A 和 B 都 己 经 知道 对 方 的 联系 
方式 ， 有 所以 束 疫 必要 央 及 ARP J 。 

分 析 完 这 几 个 包 ， 答 和 出 来 了 了。 原来 通信 过 程 是 这 样 的 : B 先 把 
ping 请 求 交 给 默认 网 关 ， 默 认 网 关 再 转 及 给 A。 而 A 收 到 请 求 后 直接 把 
ne 形成 图 13 所 示 的 三 角形 环 路 。 不 知道 你 答对 了 吗 ? 

通过 这 道 题 ， 不 知道 你 是 售 已 经 感 党 到 了 Wireshark 的 神奇 ?y 如 末 有 
兴趣 进 一步 练习 ， 不 芒 也 挫 个 环境 ， 把 这 道 题 里 A 和 B 的 掩 人 码 互 换 一 
下 。 看 看 这 次 还 能 ping 通 吗 ? 如 果 不 能 ， 原 因 叉 在 哪里 ? 


ping 回 复 
图 13 





其 实 做 题 对 Wireshark 只 是 大 材 小 用 ， 它 还 可 以 用 于 学 习 复 杂 的 协 


议 ， 或 者 解决 隐 珊 的 难题 。 在 下 文中 ， 我 们 将 体验 Wireshark 在 实际 工作 
中 的 应 用 。 


小 试 牛刀 : 一 个 简单 的 应 用 实例 


我 的 老板 气 衬 轩 晤 ， 目 区 区 定 ， 在 人 和 群 中 项 有 大 将 风范 《当然 是 老 
板 娘 不 在 场 的 时 候 ) 。 有 一 年 我 们 在 芝加哥 流 洛 街头 ， 也 没 见 他 扫 过 届 
头 。 不 过 前 几 天 ， 这 位 气 场 型 领导 竟然 板 独 脸 跑 过 来 ， 说 赶紧 帮忙 ， 有 
位 同事 被 客户 台 惨 了 了。 我 当然 不 能 拒绝 帮 (yao) 助 (giu) 同 (jia) 事 
(xin) 的 机 会 ， 立 即 加 入 电话 会 议 。 

原来 事情 是 这 样 的 ; 客户 个 小心 重启 了 服务 器 A， 然 后 它 束 再 也 无 
法 和 服务 右 B 明 信 了 。 由 于 这 两 台 服 务 占 之 加 传输 的 是 关键 数据 ， 现 场 
工程 师 又 一 时 奏 不 出 原因 ， 所 以 客户 卉 第 恼火 。 

问题 听 起 来 并 不 复杂 ， 考 虑 到 起 因 是 服务 套 A 的 重 司 ， 所 以 我 收集 
了 它 的 网 络 配置 〈 见 图 1) 。 


[root@A ~]# ifconfig |egrep "HWaddr|inet addr" 


ethe Link encap:Ethernet HWaddr 66:6C:29:CB:74:A9 

inet addr:192.168.26.131 Bcast:192.168.26.255 Mask:255.255.255.0 
eth1 Link encap:Ethernet HWaddr 66:6C:29:CB:74:B3 

inet addr:192.168.174.131 Bcast:192.168.174.255 Mask:255.255.255.6 
eth2 Link encap:Ethernet HWaddr 66:6C:29:CB:74:BD 


inet addr:192.168.186.131 Bcast:192.168.186.255 Mask:255.255.255.6 


[root@A ~]# route |grep default 
default 192.168.26.2 255.255.255.6 UG 9 9 9 eth6 


图 1 


服务 器 B 的 网 络 配 置 则 简单 很 多 ， 只 有 一 个 IP 地 址 
192.168.182.131， 子 网 掩 码 也 是 255.255.255.0。 

当 我 们 在 A 上 ping B 时 ， 网 络 包 应 该 怎么 走 ? 疯 旋 以 下 内 容 之 前 ， 
读者 不 妨 先 停 下 来 思考 一 下 。 

一 般 情况 下 ， 像 A 这 类 多 IP 的 服务 占 是 这 样 配 足 由 的 : 假如 目 身 有 
一 个 IP 和 对 方 在 同一 子 网 ， 就 从 这 个 IP 直 接 发 包 给 对 方 。 假 如 没有 一 个 
IP 和 对 方 同 子 网 ， 残 走 默认 网 关 。 在 这 个 环境 中 ，A 的 3 个 IP 显 然 都 与 B 


属于 不 同 子 网 ， 那 吏 应 该 走 默认 网 基 了 。 会 不 会 是 A 和 默认 网 关 的 通信 
出 问题 了 呢 ? 我 从 A 上 ping 了 一 下 网 关 ， 结 条 却 是 通 的 。 难 道 是 因为 网 
天 没有 把 包 转 发 出 去 ?或 者 是 ping 请 求 已 经 被 转发 到 B 了 了 ， 但 ping 回 复 
在 路 上 丢失 ? 我 感觉 自己 已 经 走 进 死胡同 。 每 当 到 了 这 个 时 候 ， 我 就 会 
想到 最 值得 信赖 的 队友 一 一 Wireshark。 

我 分 别 在 eth0、eth1、 和 eth2 上 抓 了 包 。 最 先 人 查看 的 是 连接 默认 网 关 
的 eth0， 出 乎 意料 的 是 ， 上 面 竟然 一 个 相关 网 络 包 都 没有 。 而 在 eth1 上 
抓 的 包 却 是 图 2 的 表现 :  A 正 通过 ARP 广 0 (192.168.182.131) 的 
MAC 地 址 ， 试 图 纪 过 默认 网 关 二 接 与 B 通 信 。 这 说 明了 什么 问题 呢 ? 
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这 说 明 A 上 存在 一 项 符合 192.168.182.131 的 路 由 ， 促 使 A 通过 eth1 直 
接 与 B 通 信 。 我 赶紧 逐 项 检查 路 由 表 ， 果 然 发 现 有 这 么 一 项 〈( 见 图 3) : 


[root@A ~]# route |egrep "Dest|168.182" 


Destination Gateway Genmask Flags Metric Ref Use Iface 
192.168.182.0 * 255.255.255.06 U 0 9 6 eth1 
图 3 


因为 192.168.182.131 属 于 192.168.182.0/255.255.255.0， 所 以 就 会 走 
这 条 路 由 。 由 于 不 同 子 网 所 配 的 VLAN 也 不 同 ， 所 以 这 些 ARP 请 求 根本 
到 达 不 了 B。ping AN 它 从 来 束 没 友 出 来 过 。 客 户 赶 紧 删 
除了 这 条 路 由 ， 两 人 台 服 务 硕 的 通信 也 随即 恢复 
为 什么 A 重 局 之 后 会 多 了 这 条 葛 名 其 妙 的 路 由 呢 ? 根据 客户 回忆 ， 
他 们 以 前 的 确 是 配 过 该 路 由 的 ， 后 来 删 控 了 ， 不 知道 为 什么 配置 文件 里 
还 留 着 。 今 天 的 重启 加 载 了 一 表 配 置 文 件 ， 所 以 这 条 路 由 叉 出 现 了 。 你 


也 许 会 间 ， 为 什么 不 从 一 开始 就 仔细 检查 路 由 表 呢 ? 这 样 就 不 至 于 走 错 
上 衣 同 ， 连 抓 包 和 Wireshark 都 省 了 。 我 当时 也 是 这 样 反 省 的 ， 但 现实 中 要 
做 到 并 不 容易 。 且 不 说 一 开始 并 没有 怀疑 到 路 由 表 ， 允 算 怀疑 了 也 不 一 
定 能 看 出 问题 来 。 在 这 个 案例 中 ， 系 统 官 理 员 和 现场 工程 师 都 检查 过 路 
由 表 ， 但 无 一 例外 地 忽略 了 出 问题 的 一 项 。 这 是 因为 真实 环境 中 的 路 由 
表 有 很 多 项 ， 在 紧张 的 电话 会 议 上 难以 注意 到 多 出 了 异常 的 一 项 。 而 且 
子 网 掩 码 也 不 是 255.255.255.0 那 么 直观 。 假 如 本 文 所 用 的 IP 保 持 不 变 ， 
但 子 网 掩 码 变 成 255.255.248.0， 路 由 表 就 成 了 图 4 所 示 的 样子 。 


[root@A ~]# netstat -rn 
Kernel IP routing table 


Destination Gateway Genmask Flags MSS Window irtt Iface 

192.168.168.0 86.0.0.0 255.255.248.0 U 9 9 8 eth1 

192.168.176.6 6.0.0.9 255.255.248.6 U 9 6 9 eth1 

192.168.184.6 0.60.0.0 255.255.248.0 UU 6 6 8 eth2 

192.168.24.9 0.0.0.0 255 .255.248.6 U 9 6 8 eth8 
图 4 


在 这 个 输出 中 ， 难 以 一 眼 注 意 到 192.168.176.0 就 适用 于 目标 地 址 
192.168.182.131， 至 少 对 我 来 说 是 这 样 的 。 

我 们 能 从 这 个 案例 中 学 习 到 什么 呢 ? 最 直接 的 启示 便 是 翻 出 简历 ， 
投奔 甲 方 去 。 这 样 融 可 以 在 搞 砸 系统 的 时 候 ， 义 正 词 严 地 要 求 乙方 解决 
了 。 假 如 你 回执 地 想 继 续 当 乙方 ， 那 瓯 开始 学 习 Wireshark 吧 。 有 再 有 经 验 
的 工程 师 也 有 犯 迷糊 的 时 候 ， 而 Wireshark 从 来 不 会 ， 它 随时 随地 都 能 告 
诉 你 真相 ， 不 偶 不 倚 。 


Excel 文 件 的 你 和 存 过 程 


当 我 们 在 Notepad 等 文本 编辑 器 上 单 击 File-->Save 的 时 候 ， 搬 层 的 操 
作 非 钊 简单 一 编辑 左上 的 内 容 家 直接 写 入 文件 了 《〈 见 狠 1) 。 假 如 这 个 
文件 是 被 保存 到 了 网 络 禹 上 ， 我 们 就 可 以 从 Wireshark 抓 包 上 看 到 这 个 过 
程 〈《 见 图 2) 。 


| Wireshark.btt - Notepad 











es 
























Ne 器 上 占 击 Fi1e-->Save 区 时候 , 庆 层 的 可 作 非 常 阐 单一 
i 0 Wireshark 抓 也 上 看 到 狼 个 过 程 ; 
SEE Ctrlts 
图 1 
No, Source Destination Tirme 
5 ; hark.t 


58 10. 32.200.41 10.32.106.50 2014-06-08 12:16; 人 1 ite Req 
59 10.32.106.50 10.32.200.41 2014-06-08 12:16;51] SMB2 Write Response 


包扎 58: 

客户 疹 : “我 要 写 6 个 字 节 到 /Temp/wireshark.txt 中 ”。 

包扎 59: 

服务 硕 : “ 写 好 了 。” 

相 比 之 下 ， 微 软 Office 保 存 文 件 的 过 程 束 没有 这 人 么 简单 了 ， 上 所 以 微 
软 的 老 用 户 都 或 多 或 少 经 历 过 保存 文件 时 发 生 的 问题 。 比 如 图 3 中 的 
Excel 提 示 信 息 束 很 常见 ， 它 说 明 设 文件 锌 占有 用， 暂时 你 存 不 了 。 这 样 
的 问题 在 Notepad 上 是 不 会 发 生 的 。 
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图 3 


那么 ，Excel 宛 苋 是 如 何 保存 文件 的 呢 ? 虽 然 我 的 手 尖 没有 做 软 的 


文档 ， 但 只 要 把 文件 保存 到 网 络 盘 上 ， 束 可 以 借助 Wireshark 看 到 整 
程 了 。 我 在 实验 罕 


了 个 包 


5) 。 


， 我 们 一 起 来 分 析 其 中 比较 关键 的 几 个 步 


Na. 


个 过 
宗 中 编辑 了 Excel 文 件 “wireshark.xlsx”， 然 后 在 保存 时 抓 
骤 〈 见 多 4) : 


Time Protecol Inmfo 


SOUT Drestinatian 
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26 10. 了 


200. 41 10， .106, 50 2014 sME2 create Re re J - File: Temp DCD65 28. tmp 





Gurce Des 
l :42.200.41 


Time Protacal lInfs 


了 sO 2014- SMB2 Write Reqwest Len:8ig4 off:0 File: Temp“ D062B. tmp 





这 几 个 


包 可 以 解析 为 下 述 过 程 。 
24 扎 包 : 
客户 端 
25 气 包 : 
服务 妖 : 
26 亏 包 : 
客户 端 
27 扎 包 : 
服务 器: 
38 写 包 : 
客户 端 
42 写 包 : 
服务 妖 : 


“/Temp 目 录 中 存在 一 个 叫 DCD652B.tmp 的 文件 吗 ? ” 
“不 存在 。” 

“ 那 我 要 创建 一 个 叫 DCD652B.tmp 的 文件 。” 

“ 建 好 了 。” 

“把 Excel 里 的 内 容 写 到 DCD652B.tmp 里 。” 


“与 好 了 。” 


从 以 上 过 程 可 见 ，Excel 并 没有 直接 把 文件 内 容 存 到 wireshark.xlsx 
上 ， 而 是 存 到 一 个 叫 DCD652B.tmp 的 临时 文件 上 了 。 接 下 来 再 看 〈 见 图 





No. Des tinstion > Protocol Info 
47 10. 200.41 10. 32.106. 50 014- 06-08 13:01:02 SMB2 Create Request File: Temp\6AF04530.tmp 
N Sourc Destination Time Protocol Info 
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Time Protocol Info 
50 2014 SME 2 Sor iNet 





47 号 包 : 

客户 山 : “Temp 目 录 里 存在 一 个 叫 6AF04530.tmp 的 文件 吗 ? ” 
48 扎 包 : 

服务 右 :“ 不 存在 。” 

97 写 包 : 

客户 端 :“ 那 好 ， 把 原来 的 wireshark.xlsx 重 命名 成 6AF04530.tmp。 
98 与 包 : 

服务 右 :“ 重 命名 完毕 。” 

103 扎 包 : 

各 户 疹 :“ 和 再 把 一 开始 那个 临时 文件 DCD652B.tmp 重 命名 成 
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NB 
NM 


wiresahrk.xlsx。 
104 亏 包 : 
服务 器:“ 重 命名 完毕 。” 
从 以 上 过 程 可 知 ， 原 来 的 wireshark.xlsx 锐 于 命名 成 一 个 临时 文件 ， 
nH6AF04530.tmp。 而 之 醒 创 建 的 那个 临时 文件 DCD652B.tmp 叉 被 重 命 名 
成 wireshark.xlsx。 经 过 以 上 步 又 之 后 ， 我 们 拥有 一 个 包含 新 内 容 的 


wireshark.xlsx, 还 有 一 个 临时 文件 6AF04530.tmp〈 也 就 是 原来 那个 
wireshark.xlsx) 。 接 看 往 下 看 ， 束 友 现 6AF04530.tmp 被 删除 了 〈 见 图 
6) 。 

由 ,3 了 20. 41 i 5 2014- 2 setIinfo hs FILE_INFO/SMB2_FILE_DISPOSITION INFD Fille; Tepe 5AF04530， op 

E 610. 32,106. 50 10.32,200.41 2014- SMB2 SetInfo Response 
tz SUID handile File; Temp“dAFOdS30. tep 
E SMB2_FILE_DISPOSITION_ INFO 
ee se 1 = Delere on close: DELETE This file when closed 
图 6 


微软 把 保存 过 程 设 计 得 如 此 复 淋 ， 目 然 是 有 很 多 好 处 的 。 不 过 复 灯 
的 设计 往往 伴随 独 更 多 出 问题 的 概率 ， 因 为 其 中 一 步 出 铺 焉 意味 看 保存 
失败 。 比 如 上 文 提 到 的 报错 信息 “...is currently in use. Try again later”， 
大 多 数 时 候 的 硝 是 文件 梓 占 用 才 触 肥 的 ， 但 也 有 时 候 是 Excel bug 或 者 杀 
毒 软件 导致 的 。 无 论 出 于 何 种 原因 ， 我 们 只 有 理解 了 保存 时 发 生 的 细 
节 ， 才 可 能 探究 到 真相 。 


Wireshark 正 是 获得 这 些 细 下 的 通用 法 至 ， 任 何 经 过 网 络 所 完成 的 操 
作 ， 我 们 都 可 以 从 Wireshark 中 看 人 到。 有 了 了 这样 的 利器 ， 还 有 多 少 问 题 能 
难 住 你 ? 


你 一 定 会 豆 欢 的 技巧 


我 开始 学 习 Wireshark 的 时 候 ， 到 处 碰壁 ， 闫 点 束 放 工 了 。 那 时 最 项 
望 的 是 有 前 奉 能 指点 迷 唐 ， 可 展 四 处 求教 却 镍 有 收获 。 即 便 多 年 后 的 今 
天 ， 网 络 上 能 找到 的 中 文 资 料 还 是 窗 容 无 几 ， 少 之 又 少 。 所 以 我 总 结 了 
一 些 目 认为 称 得 上 拉 巧 的 东西 ， 硕 望 能 帮 初 学 者 少 走 一 点 要 路 。 


一 、 抓 包 


拿 到 一 个 网 络 包 时 ， 我 们 总 是 硕 望 它 尽 可 能 小 。 因 为 操作 一 个 大 包 
相当 费时 ， 有 时 甚至 会 死机 。 如 果 让 初学 者 分 析 1GB 以 上 的 包 ， 佑 计 会 
锌 打击 得 信心 全 无 。 所 以 抓 包 时 应 该 尽量 只 抓 作 要 的 部 分 。 有 很 多 方法 
可 以 实现 这 一 点 。 

1. 只 抓 包头 。 一 般 能 抓 到 的 每 个 包 【 称 为 “ 帆 * 更 准确 ， 但 是 出 于 
表达 习惯 ， 本 书 可 能 会 经 第 用 “ 包 ” 代 丛 “ 巾 ?和 “分 段 "”) 的 最 大 长 度 为 
1514 字 节 ， 司 用 了 jumbo Frame《〈 巨 型 帆 ) 之 后 可 达 9000 字 节 以 上 ， 而 
大 多 数 时 候 我 们 只 需要 也 头 或 者 TCP 头 就 足够 分 机 了 。 在 Wireshark 上 可 
以 这 样 抓 到 包头 : 单 击 来 单 栏 上 的 Capture-->Options， 然 后 在 弹出 的 窗 
口上 定义 “Limit each packet to” 的 仁 。 我 一 般 设 个 俩 大 的 数字 : 80 字 市， 
也 束 是 说 每 个 包 只 抓 前 80 字 方 。 这 样 TCP 层 、 网 络 层 和 数据 链 路 层 的 信 
恩 都 可 以 包括 在 内 〔( 见 图 1)。 
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图 1 


如 果 问 题 涉及 应 用 层 ， 束 应 该 再 加 上 应 用 层 协 议 头 的 长 度 。 如 果 你 
像 我 一 样 经 常 瑟 记 不 同 协 议 尖 的 长 度 ， 可 以 输入 一 个 大 点 的 值 。 即 便 设 
成 200 字 节 ， 也 比 1514 字 节 小 多 了 。 

以 上 是 使 用 Wireshark 抓 包 时 的 建议 。 用 tcpdump 命 令 抓 包 时 可 以 
用 “-$”" 参 数 达 到 相同 效果 。 比 如 以 下 命令 只 抓 th0 上 每 个 包 的 前 80 字 
节 ， 并 把 结果 存 到 /tmp/tcpdump.cap 文 件 中 。 
[root@server_1 /J# tcpdump -i eth0 -s 80 -w /tmp/tcpdump.cap 

2. 只 抓 必 要 的 包 。 服 务 器 上 的 网 络 连 接 可 能 非常 多 ， 而 我 们 只 需 
要 其 中 的 一 小 部 分 。Wireshark 的 Capture Filter 可 以 在 抓 包 时 过 小 挥 不 需 
要 的 包 。 比 如 在 成 百 上 干 的 网 络 连 接 中 ， 我 们 只 对 IP 为 10.32.200.131 有 的 
包 感 兴趣 ， 那 束 可 以 在 Wireshark 上 这 样 设置 单 击 束 单 栏 上 的 Capture-- 


>Options， 然 后 在 Capture Filter 中 输入 “host 10.32.200.131” (多 图 2) 。 


加 Wireshark: Capture i 





Interface; |Local 图 Intekhy Bt3LM big abtt Network tonnech om ‘Devce' NPFADOE [+ | 
]P address: 10. 2 il 104 

Link-laver header type: Etnernet ei 和 二 二 ct ng 

[VW Capture packets in promiscuous mode 


Remote Settings 


[ Capture packets in pcap-ng fommat lexperimertal) = 
一 ! mmit each ed G5535 a: bytes Buffer sze: 1 = rmegabytet5j 























< 


Eee Display Options 


| Re [Browse...| [3 | Update list of packets in real time 
[| Use multiphe files 


二 于 ; EE tc 加 [| 图 atormaricscrallinginlecapture 
| Tet TE Ewerny E TE E 上 


Ne fe eery -| | rrumubetsl 


| | Hide capture info dialeg 
Ring butferwith |2 = 人 fies | 
- [Na me Hesslution- 

op capture after 
| Ne [3| Enable MAC name resolution 
加 after 


加 Ernable network narne resclutionm 





[¥] Enable transport name resolulion 





























图 2 


如 打 对 更 多 filter 表 达 陈 感 兴趣 ， 请 参考 
http:/wiki.wireshark.org/CaptureFilters 。 

用 tcpdump 命 令 抓 包 时 ， 也 可 以 用 “host”* 参 数 达 到 相同 效果 。 比 如 以 
下 命令 只 抓 与 10.32.200.131 通 信 的 包 ， 并 把 结果 存 到 /tmp/tcpdump.cap 文 
(Ps 
[root@server_1 /]# tcpdump-i eth0 host 10.32.200.131-w /tmp/tcpdump.cap 
注意 : 设置 Capture _ Filter 之 前 务必 三 思 ， 以 免 把 有 用 的 包 也 过 小 抒 ， 尤 

其 是 容易 被 忽略 的 广播 包 。 当 然 有 时 候 再 怎么 考虑 也 会 失 算 ， 比 如 我 有 

一 次 把 对 方 的 IP 地 址 设 为 flter， 结 果 一 个 包 部 没 抓 人 到。 最 后 只 能 去 挥 
filter 再 抓 ， 才 发 现 是 NAT【〔 网 络 地 址 转换 ) 设备 把 对 方 的 IP 地 址 改 掉 


了 了。 
抓 的 包 除 了 要 小 ， 最 好 还 能 为 每 步 操 作 打 上 标记 。 这 样 的 包 一 目 了 
然 ， 赏 心 悦 目 。 比 如 要 在 Windows 上 抓 一 个 包含 三 步 操 作 的 问题 ， 我 会 
这 样 抓 。 
(1) ping <IP> -n1-l1 
(2) 操作 步骤 1 
(3) ping <IP>-n1 -12 
(4) 操作 步骤 2 
(5) ping <IP> -n 1 -13 
(6) 操作 步 又 3 
如 图 3 所 示 ， 如 果 我 需要 分 析 步 骤 1， 则 只 要 看 146 一 183 之 间 的 包 即 
可 。 注 意 到 146 号 包 最 底下 的 “Data (1 byte) ”了 吗 ? byte 的 数目 表示 是 
第 几 步 ， 这 样 束 算 在 步骤 很 多 的 情况 下 也 不 会 混乱 。 
抓 包 的 技巧 还 有 很 多 ， 比 如 可 以 与 一 个 脚本 来 循环 抓 包 ， 等 侦 守 到 
作 事 件 时 自动 停止 。 一 位 工程 师 即 便 不 惜 网 络 分 析 ， 但 如 来 能 抓 得 一 手 
好 包 ， 也 是 一 项 很 了 不 起 的 扩 能 了 。 
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图 3 


二 、 个 性 化 设 营 


Wireshark 的 默认 设置 堪 称 友好 ， 但 不 同 用 户 的 从 事 领域 和 使 用 习惯 
各 有 不 同 ， 所 以 有 时 需要 根据 目 己 的 情况 对 配置 略 作 修改 。 

1. 我 经 党 需要 参照 服务 右上 的 日 志 时 间 ， 找 到 友 生 问题 时 的 网 络 
包 。 上 所 以 融 把 Wireshark 的 时 间 调 成 跟 服 务 喜 一样 的 格式 。 单 击 
Wireshark 的 View-->Time Display Format-->Date and Time of Day， 残 可 
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图 4 


2. 不 同类 型 的 网 络 包 可 以 目 定 义 烦 色 ， 比 如 网 络 管理 员 可 能 会 把 
OSPF 等 协议 或 者 与 Spanning Tree Protocol (生成 树 协议 ) 相关 的 网 络 包 
设 成 最 显眼 的 颜色 。 而 文件 服务 器 的 管理 员 则 更 关心 FTP、SMB 和 NFS 
协议 的 颜色 。 我 们 可 以 通过 View -->Coloring Rules 来 设置 颜色 。 如 果 同 
事 已 经 有 一 僚 非 常 适合 你 工作 内 容 的 配色 方案 ， 可 以 请 他 从 Coloring 
Rules 窗 口 导 出 ， 然 后 导入 到 你 的 Wireshark 里 〈 见 图 5) 。 记 得 下 次 和 他 


吧 饭 时 主动 严 单 ， 要 知道 配 一 僚 养 眼 的 项 色 可 要 伦 个 少时 间 。 
蔬 | Wiresharke: Coloring Rules - Profile: Defa ” EE >) 
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图 5 


3. 更 多 的 设置 可 以 在 Edit-->Preferences 窗 口中 完成 。 这 个 窗口 的 设 
置 精 上 度 可 以 达到 一 些 协议 的 细 和 。 比 如 在 此 窗口 单 击 Protocols-->TCP 吏 
可 以 看 到 多 个 TCP 相 关 选 项 ， 将 鼠标 停 在 每 一 项 上 都 会 有 详细 介绍 。 假 
如 经 第 要 对 Sequence ”Number 做 加 减 运算 ， 不 妨 选 中 Relative sequence 
numbers 〈 见 多 6) ， 这 样 会 使 Sequence number 看 上 去 比 实 
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图 6 


4. 如 果 你 在 其 他 时 区 的 服务 器 上 抓 包 ， 然 后 下 载 到 和 白 己 的 电脑 上 
分 析 ， 最 好 把 自己 电脑 的 时 区 设 成 跟 抓 包 的 服务 嚣 一样。 这样 ， 
Wireshatk 显 示 的 时 间 才 能 思 配 服务 右上 日 志 的 时 间 。 比 如 说 ， 服 务 右 的 
日 志 显 示 2/13/2014 13:01:32 有 一 个 错误 信息 。 那 我 们 要 在 目 己 电脑 上 调 
整 时 区 之 后 ， 才 能 到 Wireshark 上 检查 2/13/2014 13:01:32 左 右 的 包 ， 人 否则 
束 得 完 的 拭 时 间 。 


一 a 1 十》 
= 过 小 


很 多 时 候 ， 解 决 回 题 的 过 程 束 是 层 层 过 小 ， 直 全 找到 关键 包 。 前 面 


己 经 介绍 过 抓 包 时 的 Capture Filter 功 能 了 。 其 实在 包 抓 下 来 之 后 ， 还 可 
M7 Wo onde EB 更 加 强大 。 图 7 表示 一 个 “IP 为 
ER 
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要 讽 过 小 的 作用 与 技巧 ， 就 算 专 门 写 一 本 小 册子 都 不 为 过 。 遍 幅 所 
限 ， 本 文 只 能 “过 滤 ? 出 最 适合 初学 者 的 部 分 。 

1. 如 果 已 知 系 个 协议 友 生 问题 ， 可 以 用 协议 名 称 过 小 一 下 。 以 
Windows Domain 的 号 份 验证 问题 为 例 ， 如 果 已 知 该 域 的 验证 协议 是 
Kerberos， 那 么 就 在 Filter 框 输入 Kerberos 作 为 关键 字 过 滤 。 除 了 纯粹 的 
Kerberos 包 ， 你 还 将 得 到 Session Setup 之 类 包含 Kerberos 的 包 ( 见 图 
8) 。 
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用 协议 过 滤 时 务必 考虑 到 协议 间 的 依赖 性 。 比 如 NFS 共 至 挂 载 失 
败 ， 问 题 可 能 发 生 在 挂 载 时 所 用 的 mount 协 议 ， 也 可 能 发 生 在 mount 之 表 
ade 这 种 情况 下 就 需要 用 “portmap || mount”* 来 过 滤 了 ( 见 图 

。 如 果 不 懂 协议 间 的 依赖 关系 怎么 办 ? 我 也 没有 好 办 法 ， 只 能 暂时 
st 人 DU 再 用 。 
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IP 地 址 加 port 号 是 最 常用 的 过 小 方式 。 际 了 手工 输入 ip.addreq<IP 


地 址 > &&tcp.porteq< 端 口号 > 之 类 的 过 滤 表 达 式 ，Wireshark 还 提供 了 更 
快捷 的 方式 : 右键 单 击 感 兴趣 的 包 ， 选 择 Follow TCP/UDP Stream 〈 选 
择 TCP 还 是 UDP 要 视 传 输 层 协议 而 定 ) 束 可 以 自动 过 小 〈( 见 图 10)〉 。 而 

且 访 Stream 的 对 话 站 从 会 三洲 守 站 a 图 站 i 
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图 10 


经 党 有 人 在 论坛 上 问 ，Wireshark 是 按照 什么 过 小 出 一 个 TCP/UDP 
Stream 的 ? 管 案 就 是 : 两 六 的 IP 加 port。 单 击 Wireshark 的 Statistics-- 
>Conversations， 再 单 击 TCP 或 者 UDP 标 签 束 可 以 看 到 所 有 的 Stream( 见 
图 11) 。 
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图 11 


3. 用 女 标 帮助 过 滤 。 我 们 有 时 因为 Wireshark 而 吉 忆 ， 并 不 是 因为 
它 功 能 不 够 ， 而 是 强大 到 难以 要 驱 。 比 如 在 过 滤 时 ， 有 成 和 上 万 的 条 件 
可 供 选 择 ， 但 怎么 写 才 是 合乎 语法 的 ? 虽然 
ocd ee 提供 了 参考 ， 但 经 沿 但 找 毕 葛 太 费时 
避 力 了 。Wireshak 考 虑 到 了 这 个 和 需求， 右键 单 击 Wireshark 上 感 兴 趣 的 
内 容 ， 然 后 选择 Prepare a ie 就 会 在 Filter 框 中 自动 生成 过 


小 表达 了 式 。 在 有 复杂 需求 的 时 候 ， 
个 组 合 的 过 小 表达 式 。 


假如 右键 单 击 之 后 选择 的 不 是 Prepare a Filter， 而 是 Apply as Filter-- 
>Selected， 则 该 过 小 表达 式 生 成 之 后 还 会 目 动 执行 。 图 12 显 示 了 在 一 个 
SMB 包 的 SMB Command: Read AndX 上 右键 单 击 ， 并 选择 Selected 之 


后 ， 所 有 的 Read 包 都 会 做 过 渡 出 来 。 
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图 12 


4. 我们 可 以 把 过 滤 后 得 到 的 网 络 包 存在 一 个 新 的 文件 里 ， 因 为 小 
文件 更 方便 操作 。 单 击 Wireshark 的 File-->Save As， 选 中 Displayed 单 选 


Ex ert Selected Packet Bties,,, 


还 可 以 选择 And、Or 等 选项 来 生成 一 


SB Reag Anmd Re 
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按钮 再 你 存 ， 得 到 的 新 文件 就 是 过 小 后 的 部 分 ( 见 图 13)〉。 
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图 13 


有 时候 你 会 友 现 ， 保 存 后 的 文件 再 打开 时 会 显示 很 多 错误 。 这 是 因 
为 过 滤 后 得 到 的 不 再 是 一 个 完整 的 TCP Stream， 惑 像 抓 包 时 漏 抓 了 很 多 
一 样 。 所 以 选择 Displayed 选 项 时 要 慎重 考虑 。 

注意 : 有 些 Wireshark 版 本 把 这 个 功能 移 到 了 菜单 File-->Export 
Specified Packets... 选 项 中 ， 如 图 14 所 示 。 
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总 体 来 说 ， 过 滤 是 Wireshark 中 最 有 趣 ， 了 最 难 ， 也 是 最 有 价值 之 处 ， 
值得 我 们 用 心 学 习 。 


四 、 让 Wireshark 上 自动 分 析 


有 些 关 型 的 问题 ， 我 们 根本 不 需要 研究 包 里 的 细节 ， 直 接 交 给 
Wireshark 分 析 残 行 了 。 

1， 单 击 Wireshark 的 Analyze-->Expert Info Composite， 就 可 以 在 不 
同 标签 下 看 到 不 同 级 别 的 提示 信息 。 比 如 童 传 的 统计 、 连 接 的 建 并 和 午 
置 统计 ， 等 等 。 在 分 析 网 络 性 能 和 连接 问题 时 ， 我 们 经 营 需 要 借助 这 个 
功能 。 图 15 是 TCP 包 的 重 传统 计 。 
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图 15 


2， 单 击 Statistics-->Service Response Time， 再 选 定 协议 名 称 ， 可 以 
得 到 啊 应 时 间 的 统计 表 。 我 们 在 衡量 服务 右 性 能 时 经 党 需要 此 统计 结 
果 。 图 16 展 示 的 是 SMB2 读 写 操 作 的 响应 时 间 。 
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3， 单 击 Statistics-->TCP Stream Graph， 可 以 生成 几 类 统计 图 。 比 如 
我 曾经 用 Time-Sequence Graph (Stevens) 生 成 了 图 17。 
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图 17 


从 图 17 中 可 以 看 出 25~~40 秒 ， 以 及 65~~75 秒 之 间 没 有 传输 数据 。 进 
一 步 研 究 ， 及 现 及 送 方 内 存 不 足 ， 所 以 偶尔 出 现 暂 俘 现 家 ， 添 加 内 存 后 
问题 瓯 解决 了 。 

为 什么 Wireshark 要 把 这 个 图 称 为 “Stevens” 呢 ?我 猪 是 为 了 同 

《TCP/IP Tllustrated》 的 作者 Richard Stevens 致 获 。 这 也 是 我 非常 嘉 欢 的 
一 僚 书 ， 在 此 推荐 给 所 有 读者 。 

4， 单 击 Statistics-->Summary， 可 以 看 到 一 些 统计 信息 ， 比 如 平均 
流量 等 ， 这 有 助 于 我 们 推测 负载 状况 。 比 如 网 18 中 的 网 络 包 才 
1.594Mbits， 说 明 流 量 低 得 很 。 
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图 18 


五 、 最 容易 上 手 有 的 搜索 功能 


与 很 多 软件 一 样 ，Wireshark 也 可 以 通过 “Ctrl+E2” 搜 索 关 键 字 。 假 如 
我 们 怀疑 包 里 舍 有 “error” 一 词 ， 束 可 以 按 下 “Ctrlt+F” 之 后 选中 “String” 单 
选 按钮 ， 然 后 在 Filter 中 输入 “error” 进 行 搜 索 《〈 见 图 19) 。 很 多 应 用 层 的 
错误 都 可 以 其 这 个 方 读 锁 定 问 题 包 。 
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一 扁 文 章 不 可 能 遂 凋 所 有 技巧 ， 本 文 驶 到 此 为 止 。 最 后 要 分 胖 的 ， 
是 我 认为 最 “条 ”但 也 是 最 香 要 的 一 个 拉 巧 一 一 勒 加 练习 。 只 要 练 到 这 些 
拉 蕊 都 变 成 习惯 ， 瓯 可 以 算 登 蔡 入 室 了 了 。 


Patrick 上 的 故事 


我 还 在 山脚 下 的 时 候 ，Patrick 己 经 在 山 项 了 。 人 至 今 我 还 只 能 在 山坡 
仰望 他 。 

第 一 次 听 说 Patrick 的 名 字 是 在 6 年 前 。 当 时 我 初 入 存储 行业 ， 经 第 
航 各 关 难 题 所 困 。 有 一 次 ， 我 要 把 大 批文 件 从 Windows 迁 移 到 文件 服务 
癸 (CNAS) 上 ， 不 知道 为 什么 有 些 文件 区 是 过 不 去 ， 报 错 信息 也 没有 参 
考 价值 。 走 投 无 路 之 际 ， 一 位 美国 同事 提 J 了 个 建议 : 我 司 在 波士顿 有 一 
位 很 历 害 的 专家 ， 也 许可 以 请 教 一 下 他 。 我 抱 看 试 一 试 的 态度 及 了 一 封 
求助 信 ， 没 想到 十 几 分 钟 后 束 得 到 回复 。 专 家 建议 我 抓 一 个 网 络 包 ， 然 
后 用 Wireshatrk 看 看 这 些 文件 有 没有 特殊 属性 。 我 立即 照办 ， 果 然 在 这 些 
文件 上 看 到 Temporary 必 性。 知道 原因 后 ， 问 题 很 快 束 解 决 了 。 那 是 我 
第 一 次 接触 wireshark， 而 那 位 专家 了 束 是 Patrick。 

从 此 我 束 襄 欢 上 了 Wireshark， 因 为 它 实 在 很 有 用 ， 束 像 是 学 武之 人 
得 到 了 一 把 称 手 好 剑 。 而 Patrick 却 渐渐 被 我 淡 筷 了 。 下 到 一 年 之 后 ， 我 
又 过 到 这 样 一 个 难题 : 有 一 从 文件 服务 夯 的 读 性 能 只 有 10MB/s， 远 低 
于 客户 的 期 前 。 我 笠 试 过 很 多 调 优 方式 ， 性 能 却 只 降 不 升 。 什 筋 三 天 之 
后 ， 我 对 目 己 彻 辰 失去 信心 。 这 时 候 我 又 想起 了 Patrick， 说 不 定 他 能 给 
点 晶 见 呢 。 于 是 我 上 传 了 一 个 网 络 包 ， 请 他 帮忙 分 析 。 一 小 时 后 奇迹 册 
次 出 现 ， 我 收 到 了 他 的 回信 。 信 中 提 到 两 点 建议 。 


。 ITCP 超 时 重 传 的 间 阳 时间 太 长 ， 议 置 一 个 较 小 的 时 间 可 以 减少 重 
传 对 性 能 的 影响 。 


。 该 网 络 频 繁 拥 塞 ， 拥 塞 点 大 多 在 32KB 以 上 。 如 果 把 发 送 窗口 限制 
在 32KB， 束 可 以 避免 触 倍 拥 力 点 。 


我 答 直 不 敢 相 信 这 些 分 析 ， 短 短 一 个 小 时 怎么 能 看 出 这 么 深奥 的 原 
因 ? 我 好 锈 也 用 了 一 年 Wireshark 了 ， 几 乎 每 个 菜单 都 很 熟 若 ， 却 从 来 不 
知道 有 个 地 方 可 ”以 看 出 拥堵 点 。 不 过 有 了 上 次 的 成 功 经 验 ， 我 决定 还 
是 答 试 一 下 这 两 条 建议 。 在 把 超时 重 传 时 间 减 小 之 后 ， 旋 性 能 立即 达到 
20MB/s， 比 之 前 提高 了 一 倍 。 这 个 结果 实在 太 振 奋 人 心 ， 一 扫 三 天 来 
的 阴 宪 。 我 赶紧 再 设置 及 送 窗口 ， 没 想到 性 能 又 提高 了 一 倍 ， 达 到 
40MB/s。 现 场 的 工程 师 和 客户 部 在 欢呼 ， 我 在 电话 上 也 久久 不 能 平 
静 。 这 时 候 我 才 真 正 航 Patrick 的 实力 所 震 振 。 和 觉得 目 己 焉 像 武侠 小 说 中 
初 水 江 潮 的 少年 ， 一 年 前 被 深 藏 不 露 的 大 侠 所 救 ， 却 只 看 到 好 剑 的 历 
害 。 一 年 后 再 次 映 陷 险 境 ， 看 到 大 使 出 招 ， 才 知道 目 己 有 有 眼 不 识 泰 山 ， 
恨不得 立即 兢 头 拜师 。 

等 到 我 学 会 在 Wireshark 上 看 拥 伟 窗口 ， 己 经 是 半年 后 的 事 了 。 期 间 
我 重读 了 Richard ”Stevens 的 《TCP/IP ”Tllustrated》， 过 到 疑难 就 请 教 
Patrick。 他 每 次 的 回信 和 都 极 像 专业 论文 ， 篇 幅 极 长 却 叉 字 字 球 丽 ， 有 一 
次 甚至 当场 写 了 个 程序 帮 我 理解 概念 。 他 的 严 谋 、 耐 心 和 分 享 精神 都 堪 
称 顶 级 工程 师 的 典范 。 假 如 说 他 是 一 位 老师 ， 那 一 定 是 我 求学 路 上 碰 到 
过 最 为 出 色 的 老师 。 我 专门 在 Outlook 里 设 了 一 个 rule， 把 他 的 所 有 邮件 
放 在 一 起 ， 人 至今 一 封 都 没有 删 过 。 在 非 技 术 问 题 上 ，Patrick 从 来 惜 字 如 
金 。 我 曾经 问 他 : “Have you ever thought about writing a book?” 他 很 简单 
地 回答 :“I am not a good author.” 如 果 他 都 不 算 good author 的 话 ， 有 几 个 
人 称 得 上 好 ? 即便 把 我 收藏 的 这 些 邮 件 集结 起 来 ， 也 是 一 本 好 书 了。 

我 曾经 想 过 ， 将 来 菜 一 天 能 不 能 学 到 Patrick 的 水 平 ? 现在 已 经 不 考 
在 这 个 问题 了， 因为 我 友 现 他 的 技术 似乎 是 没有 边界 的 。 有 一 天 ， 我 饭 
一 个 Active Directory 的 问题 难 住 ， 微 软 的 工程 师 也 无 可 奈何 ， 他 却 精 准 
地 解决 了 。 我 才 知 道 他 对 Windows Domain 也 深 有 研究 。 当 天 中 午 和 研 
发 部 门 的 同事 一 起 吃饭 时 ， 我 同 他 提起 了 无 所 不 知 的 Patrick。 没 想到 这 
位 同事 也 很 震惊 ,，“ 他 恒 这 么 多 啊 ?” 我 只 知道 他 正在 帮 我 们 处 理 一 个 操 
作 系 统 的 问题 。” 从 同事 转 来 的 邮件 上 ， 我 果然 看 到 Patrick 回 他 讲解 了 


一 个 操作 系统 的 细节 问题 。 这 时 我 不 禁 想 起 他 目 谦 过 的 一 人 句 
话 “Everybody has his expertise”。 可 是 有 什么 技术 领域 不 是 你 的 expertise? 
我 很 想 当 面 问 问 这 位 系 未 诗 面 的 老师 。 

几 年 后 我 到 波士顿 开会 ， 第 一 个 想见 的 人 吏 是 Patrick。 我 市 了 中 国 

名 心 ， 也 市 着 很 多 感谢 去 拜访 他 。 可 惜 他 那天 没有 在 办 公 室 里 出 现 。 邻 

应 的 同事 说 ,，“ 我 们 也 很 久 没 有 见 到 Patrick 了 ， 他 在 家 里 办 公 ， 而 且 是 
在 夜里 。” 昕 说 我 是 从 中 国友 名 而 来 ， 这 位 同事 泣 滔 不 绝地 说 起 大 家 对 
Patrick 的 秦 仰 ， 并 表示 要 帮忙 联系 。 我 考虑 到 他 在 夜里 工作 ， 日 天 肯定 
要 体 县 ， 只 能 放 茎 登门 拜访 的 念头 。 回 国 后 收 到 Patrick 的 邮件 ， 原 来 他 
知道 后 第 二 天 就 去 了 了 办公室 ， 可 恒 我 那 时 已 经 在 飞机 上 了 。 

所 以 我 至 今 没 有 见 过 Patrick， 但 这 义 有 什么 关系 ?在 网 络 时 代 ， 有 
些 人 残 算 从 来 没有 机 会 见面 ， 甚 至 不 知道 年 龄 和 种 族 ， 也 可 以 是 最 好 的 
老师 。 


Wireshark 上 的 末世 今后 


这 十 一 个 无 天 技术 的 小 故事 。 但 是 作为 Wireshark 爱 好 者 ， 了 解 一 下 
这 个 软件 的 前 世 今 生 也 是 极 好 的 ， 谁 不 想 在 中 午 和 同 〈ling) 事 (dao) 
一 起 吃饭 的 时 候 讲 个 业内 小 故事 ， 显 得 自己 业务 精湛 叉 疝 味 不 俗 昵 ? 

故事 要 从 20 世 纪 90 年 代 开 始 说 起 。 那 时 的 开业 欣欣 向 荣 : 摩托 罗拉 
下 野心 勃 过 地 实施 饼 星 计划 ; Google 的 两 位 创始 人 还 在 房东 的 车 库 里 研 
究 搜 索引 擎 。 我 们 故事 的 主人 公 Gerald Combs 还 是 默默 无 闻 的 青年 。 和 
那个 时 代 的 很 多 工程 师 一 样 ，Gerald 技 术 精 湛 ， 热 情 上 进 ， 动 手 能 力 极 
强 。 他 就 职 于 一 家 网 络 提供 商 ， 时 利 需 要 分 析 软 件 来 辅助 工作 。 可 古 这 
样 的 软件 太 少 了 ， 而 且 一 个 license 就 要 80,000 美 金 。 即 便 在 今天 的 美 
国 ， 这 也 不 是 一 笔 小 数目 。 

和 我 们 中 的 很 多 人 不 一 样 ，Gerald 没 有 下 载 盗版 软件 ， 而 是 决定 自 
己 写 一 个 。 他 单枪匹马 忙碌 了 几 个 月 。 我 们 今天 仍 能 想见 其 中 的 艰辛 一 
即便 是 从 业 多 年 的 工程 师 ， 对 很 多 网 络 协议 还 一 知 半 解 ， 更 不 要 说 开 肥 
一 个 能 分 析 协 议 的 软件 了 。 而 一 位 工程 师 既 精通 多 种 协议 ， 又 能 写 好 代 
僻 ， 更 是 疝 人 难以 企及 的 境界 。 但 谦虚 的 Gerald 一 直 对 此 轻描淡写 ，“ 
spent several months doing research and making notes.” 到 了 1998 年 7 月 ， 这 
个 软件 终于 面世 了 。 它 市 来 了 这 样 的 功能 : 当 你 透 过 它 看 到 网 络 时 ， 不 
再 是 没有 意义 的 0 和 1， 而 是 可 以 理解 的 简洁 文字 。 有 了 J 了 它 的 专业 解 许 ， 
我 们 几乎 能 直接 看 懂 网 络 上 发 生 的 一 切 。 以 前 难以 排查 的 问题 ， 在 它 介 
入 后 便 显 圳 无遗 。 它 还 提供 了 权威 的 分 析 报 告 ， 比 如 午 传 京 统 计 、 啊 应 
时 间 和 对 话 列 表 等 ， 这 解放 了 原本 负担 索 重 的 网 络 管 理 员 ， 使 他 们 有 更 
多 时 间 专 注 其 他 事务 。 

Gerald 把 这 个 软件 命名 为 Ethereal， 正 对 应 了 它 的 功能 一 还 原 以 太 网 
的 真相 。Ethereal 的 代码 版 权 目 然 属于 Gerald， 而 他 所 在 的 公司 


NIS (Network Integration Services) 则 拥有 Ethereal 商 标 。 当 时 谁 也 没有 
想到 ， 这 个 归属 权 会 在 多 年 后 引起 一 场 风 波 。 由 于 Ethereal 写 得 太 好 
了 ， 而 且 是 以 GNU GPL 开源 许可 证 发 布 的 ， 世 界 各 地 的 开发 者 纷纷 参 
与 到 这 个 项 目 中 。 没 过 多 信 ， 它 束 涵 新 了 世界 上 大 多 数 通 信人 协议 ， 成 为 
三 受 欢迎 的 网 络 分 析 软 件 。 它 可 以 用 于 教学 ， 如 果 网 络 教 师 用 它 辅助 上 
诗 ， 可 以 大 大 提高 学 生 的 兴趣 。 也 可 以 辅助 开 及 和 测试 ， 古 调试 网 络 程 
序 的 好 工具 。 当 然 它 最 大 的 用 途 还 是 诊断 问题 ; 从 数据 链 路 层 到 应 用 层 
的 种 种 协议 ， 几 乎 涉及 网 络 的 地 方 束 有 有 它 的 用 武之 地 。 更 难得 的 是 ， 
Gerald 并 没有 打算 从 中 获 利 ， 它 人 至今 还 是 完全 免费 的 ， 每 位 愿意 学 习 的 
工程 师 都 可 以 党 巷 。 

世界 的 变化 总 是 超 乎 我 们 的 想象 ， 尤 其 是 在 IT 业 。 没 几 年 时 间 ， 匆 
性 计划 彻 搬 破产 ; Google 却 成 了 最 大 的 网 络 公 司 。 只 有 Gerald 没 有 变 
人 化， 一直 在 殊 现 业 业 地 维护 Ethereal。 每 个 月 都 有 新 的 协议 出 现 ， 己 有 
的 协议 也 在 推出 新 版 本 ， 他 永远 有 忙 不 完 的 活 。 中 辐 仅仅 发 生 过 一 次 改 
名 风流: 2006 年 他 离开 NIS， 加 入 了 CACE。 由 于 和 老 东 家 在 Ethereal 的 
商标 问题 上 无 法 达成 一 致 ，Gerald 把 项 目 改 名 为 Wireshark。 从 此 
FEthereal 这 个 风 厅 多 年 的 项 目 俘 止 了 ， 只 留 下 www.ethereal.com 域 名 。 我 
们 至 今 还 能 访问 它 ， 但 是 会 被 重 定 同 到 一 家 叫 AOS 的 公司 。 为 什么 不 是 
重 定 向 到 NIS 呢 ? 因为 NIS 在 2011 年 被 AOS 合 并 了 。 

Wireshark 延 续 了 Ethereal 的 成 功 ， 现 在 有 成 干 上 万 的 开发 者 在 追随 
Gerald。 每 年 还 会 人 各 开 一 次 为 期 4 天 的 Sharkfest 大 会 。2011 年 Wireshark 在 
SecTools 排 行 第 一 ，2012 年 被 Insecure.org 评 为 “No. 1 Packet Sniffers”。 美 
国 的 技术 作家 们 开始 为 它 音 书 立 说 ， 中 国 的 出 厂 社 也 在 引进 《比如 人 民 
邮电 出 版 社 引 进出 版 的 《Wireshark 数 据 包 分 析 实 战 ( 第 2 版 》) 。 值 
得 一 提 的 是 ，CACE 后 来 被 Riverbed 收 购 了 ，Riverbed 成 了 Wireshark 项 日 
的 赞助 丙 。 很 多 中 国 工 程 师 可 能 党 得 Riverbed 名 不 见 经 传 ， 但 说 到 Linux 
里 常用 的 tcpdump 命 令 束 不 会 队 生 。tcpdump 的 开发 者 之 一 Steve 
McCanne 束 古 Riverbed 的 CTO。 而 WinPcap 的 开发 者 Loris Degioanni 也 在 


Riverbed 工 作 。 人 似乎 划 哩 之 中 目 有 天 意 ，Riverbed 把 网 络 探 调 寞 的 先锋 
们 有 聚 到 了 一 起 。 我 们 要 同 Riverbed 狼 秦 ， 多 二 了 这 些 伟 大 的 工具 ， 我 们 
才 得 以 完 探 网 络 的 秘 窒 。 

Gerald 不 久 前 在 Twitter 上 宣布 ,，“Wireshark is, and will always be 
open source。” 其 实 Wireshark 即 便 不 再 开源 也 不 会 抹杀 他 的 成 束 。 改 变 
世界 的 开瑞 雄 ， 可 以 像 Jobs 一 样 领导 一 个 成 功 的 公司 ， 更 可 以 像 Gerald 
一 样 创造 一 件 传世 的 作品 。 他 们 的 成 束 一 样 会 修 锡 刻 在 I 开 历 史 的 丰碑 
本 


NFS 协 议 的 解析 


20 世 纪 80 年 代 初 ， 一 家 神 否 的 公司 在 人 硅谷 诞生 了 ， 它 束 是 Sun 
Microsystems。 这 个 名 字 与 太阳 无 关 ， 而 是 源 目 互联 网 的 伊甸园 一 
Stanford University Network 的 首 字 母 。 在 不 到 30 年 的 时 间 里 ，SUN 公 司 
创造 了 无 数 传 世 作 品 。 其 中 ，Java、S$olaris 和 基于 SPARC 的 服务 器 至 今 
还 团 名 遐 还 。 后 来 ， 人 们 总 结 SUN 公 司 有 惨 沙 的 原因 时 ， 有 一 条 苋 然 是 技 
术 过 剩 。 

Network ”File System (NFS) 协议 也 是 SUN 公 司 设 计 的 。 顾 名 加 
义 ，NFS 就 是 网 络 上 的 文件 系统 。 它 的 应 用 场景 如 图 1 所 示 ，NFS 服 务 器 
提供 了 /code 和 /document 两 个 共 圣 目录 ， 分 列 密 挂 载 到 多 台 客 户 并 的 本 
地 目录 上 。 当 用 户 在 这 些 本 地 目录 谈 写 文件 时 ， 实 际 是 不 知 不 党 地 在 
NFS 服 务 左 上 读 与 。 





NFS 服 务 器 10.32.106.62 提 供 了 以 下 两 个 共享 : 





icode 
document 
hs hy 
NFS 客 户 机 A 挂 载 了 服务 器 上 的 两 个 共享 目 录 : NFS 客 户 机 B 也 挂 载 了 这 两 个 共享 目录 : 
10.32.106.62: /co0de /tmp/code 10.32.106.62:code /tmp/code 
10.32.106.62:/document /mp/document 10.32.106.62: /document /tmp/document 


图 1 


NFS 目 1984 年 面世 以 来 ， 已 经 流行 30 年 。 理 论 上 和 它 适 用 于 任何 操作 
系统 ， 不 过 因为 种 种 原因 ， 一 般 只 在 LinuxwUNIX 环 境 中 存在 。 我 在 很 多 
数据 中 心 见 到 过 NEFS 应 用 ， 其 中 不 乏 通信 、 银 行 和 电视 台 等 大 型 机 构 。 
无 论 SUN 的 命运 如 何 多 外 ，NFS 始 终 处 乱 不 惊 ， 这 么 多 年 来 只 出 过 3 个 


版 本 ， 即 1984 年 的 NFSvV2、1995 年 的 NFSv3 和 2000 年 的 NFSv4。 目 前 ， 
大 多 数 NFS 环 境 都 还 是 NFSvV3， 本 文 介 绍 的 也 是 这 个 版 本 。NFSv2 还 在 
极 少数 环境 中 运行 (我 只 在 日 本 见 到 过 ) ， 可 以 想象 这 些 环境 有 多 老 
了 。 而 NEFSv4 因 为 深 党 CIFS 影 响 ， 实 施 过 程 相 对 复杂 ， 上 所 以 普及 速度 较 
慢 ， 

如 何 深 入 学 习 NFS 协 议 呢 ? 其 实 所 有 权威 资料 都 可 以 在 RFC 1813 中 
找到 ， 不 过 这 些 文 档 读 起 来 束 像 面 对 一 张 冷冰冰 的 面 筷 ， 令 人 望 而 却 
步 。《 马 哥 的 Linux 私 房 菜 》 中 对 NEFS 的 介绍 虽 称 得 上 友好 ， 但 美 中 不 
足 的 是 不 够 深入 ， 出 了 问题 也 不 知道 如 何 排查 。 我 曾经 为 此 烦 感 苦恼 ， 
因为 工作 中 碰 到 的 NFS 问 题 太 多 了 ， 走 投 无 路 时 了 驶 只 能 便 中 REFC 一 既然 
网 络 协议 都 那么 复杂 ， 我 也 不 指望 有 捷径 了 。 直 到 有 一 天 偶然 打开 挂 载 
时 抓 的 包 ， 才 意识 到 Wireshark 可 以 改变 这 一 切 : 它 使 整个 挂 载 过 程 一 日 
了 然 ， 所 有 细 广 都 一 贤 无 吐 。 分 析 完 每 个 网 络 包 ， 再 回顾 RFC 1813 便 完 
全 不 沼 得 阳 生 。 

如 果 你 对 NFS 有 兴趣 ， 妨 一 起 来 分 析 这 个 网 络 包 。 在 我 的 实验 室 
中 ，NFS 客 户 端 和 文件 服务 器 的 JP 分 别 是 10.32.106.159 和 10.32.106.62。 
我 在 运行 挂 载 命令 (mount) 时 抓 了 包 ， 然 后 用 “portmap | mount | 
nfs” 进 行 过 小 ( 见 图 2) 。 

[root@shifml tmpl# mount 10.32.106.62:/code /tmp/code 


国王 “= mw -i BS 


区 Edit Wew Go Capture Aralyze Statistics Tetepleoin Took Wsintemal Halp 

LA IE EI 

| Filter: portmapll mount nfs - | Expression,., Clear Apply 

na, SGMUTTCE eh ne I Pratocol ln 
PeorTmap ' 











112 10, 32; 3 ] 2 i : aT Call (Reply Tn 113) NFSCLOQO03Y WI3 TEP 
| 41413 10, 32. ppp Ee ee 32. ee pi 了 :21: 768732 PorTmap wa GETPORT Reply call In 112Y PorT:2049 
123 10. 32:106159 10,32.106.62 -2013-07-13 14:21:18,768742 -NFS 3 HULL Call CReply Im 124) 


a | t -15 “21:18, 7 


可 eply 工 m 
141 10. 32. 106. 62 10. 32. 106. 133 20]3-07-15 14:21:18, 772649 时 了 NULL Reply tcall Im 140} 
二 4 子 于 32 106, 二 5。 于 32 0.62 了 圳 半 和 二 了 了 芝 语 二 生 Ww3 FSINFG Call CReply In pd FH: OX2CCObeis 
1 4D. 32.106, 在 过 10,. 32.1406.139 203-07-13 14:21:18.772649 量子 FS5INFG Reply Ccall Im 143 
二 守 于 认 32 DG, 二 了 32406.62 :20L3-07-15 1 :21:14, 7 了 77SS Ww3 FSINFG Call CReply In et FH: OX2CCObeis 
| 146 10, 32.1065., 652 10, 32.106.1539 2013-07-15 1d:21:18, 了 了 看 末末 V3 FSINFG Reply {call In 145) 
图 2 


从 图 2 中 的 Info 一 栏 可 以 看 到 ，Wireshark 己 经 提供 了 详细 的 解析 。 


不 过 我 们 还 可 以 翻译 成 更 下 日 的 对 话 《〈 为 了 方便 第 一 次 接触 NFS 的 读 


者 ， 我 还 作 了 一 些 注释 ) 。 
包 号 112 和 113 ( 见 图 3) : 


No. BUTECE [estirattom Time Protocol Infe 
11i2 10.32.106.159 10.32.1]06.62 20]3-07-15 portmap V2 ETPORT Call (Reply Im 113) NFSC100003) 
113 10. 32.106.62 10.32.106.159 20143-07-15 Fortmap ve GETPORT Reply (call In 112) Fort:20493 


图 3 


客户 端 : “我 想 连接 你 的 NFS 进 程 ， 应 访 用 哪个 端口 呀 ? ” 
服务 器 : “我 的 NFES 端 口 是 2049。” 山 
包 号 123 和 124 ( 见 图 4) : 


NG, SUF Destinaticr Tirme Protoecol Infe 
i123 10.32.106.159 10.,.32.1]06.62 2013-07-=15 NFS V3 NULL Call (Reply In 124) 
i124 4100.32.106.62 1.32:106.159 2003-D7-15 NFS WY3 NULL Reply tcall In i123) 


图 4 


客户 端 :“ 那 我 试 一 下 NEFS 进 程 能 人 否 连 上 。” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 乌 
包 号 128 和 129 ( 见 图 5) : 


ho, Serce Destination Time Protocol 了 In 全 





洁 ET Fr "map a EE i TET 民 e| 亲 mp hn -i -| 上 站 三 于 一 可- 让 到 二 
3 TA, > bi a de E 


客户 问 ;: “我 想 连 接 你 的 mount 服 务 ， 应 该 用 哪个 端口 呀 ? ” 
服务 器 :“ 我 的 mount 的 端口 号 是 1234。”3 
包 号 132 和 133 ( 见 图 6) : 


Me FOUrTE Destin gtian Tirne Protocol Infa 





客户 站 : “和 那 我 试 一 下 mount 进 程 能 否 连 上 。，” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 负 
包 号 134 和 135 ( 见 图 7) : 





Te Reply CCall Th 134) ce 


| 
Frame 135: 114 byres on wire 不 912 bits)y, 114 bytes captured 3912 bitsy 
Ethernet II. srce: Clariion _ 2h:Sd:b2 CO0:60:16:2b' dha Dst: Intel ddddez {Ot: 
Internet Proatocol, sre: 10.32.106.62 10.342.106.62), Dst: 10.32.106.159 (10.32.10 
User Datagram Protocol, src Port: search-agent (i234), Dst Port; torba-iicp-ss] 工 
Remote Procedure Call, Type:Reply XIDIOXOd6C 了 bd 
MOUNT Service 
[Program Version: 3] 
[Y3 Procedure: MNT (1)] 
status: DK (OY 
习 fhandle 
lenoth: 32 
[hash CRC-32): Ox2ccobelg] 


中 图 图 图 图 开 E 





图 7 


客户 端 : “我 要 挂 载 /code 共 享 目录 。 


服务 器 : “你 的 请 求 被 批准 了 。 以 后 请 用 file handle 0x2cc9be18 来 访 
问 本 目录 。” 忆 ) 


包 号 140 和 141 ( 见 图 8) 


No, Souyrre Deshnation 下 me Protocol ‘rfo 
i140 10,. 32,.106,.1359 10,32,.106.62 20143-07-15 NFS WwW3 MULL call (trReply In i141) 
i141 10, 32,.106.62 ‘10,32.106.159 2013-07-15 NFS V3 NULL Reply tcall In 140) 


图 8 


客户 中: “我 试 一 下 NFS 进 程 能 合 连 上 。?” 
服务 器 :“ 收 到 了 ， 能 连 上 。” 包 
包 号 143 和 144 ( 见 图 9) 


Mo. SOUTCE DesimatiGnm Tirne Protecol Infe 
143 10. 32.106.139 10.32.106.62 20J]3-07-153 NFS V3 FSINFG call Reply In 144), FH:Ox2ccobels 


144 10., 32.106.62 10.32.106.159 201]3-07-15 NFS V3 FS5INFG Reply (tcall In 143) 


图 9 


客户 山 : “我 想 看 看 这 个 文件 系统 的 属性 。 
服务 器 :“ 给 ， 都 在 这 里 。” 人 外 
包 号 145 和 146 ( 见 图 10) 


Ng. WFCE brestinatiorn Tirrmre protocel Jr 
45 19.32.1065.159 10,.32.108.62 2013-07-15 NFS W323 FSINFG Call (Repl'y In 146), FH:Ox2ccobels 
i146 190.32.105.62 10.342.106.159 2013-07-15 NFS WY3 FSINFG Reply fcall In 145) 


图 10 


性 响 :“ 我 想 看 看 这 个 文件 系统 的 属性 。 
gy “给 ， 都 在 这 里 。” 鸟 


以 上 便 古 NFS 挂 载 的 全 过 程 。 细 市 之 处 很 多 ， 所 以 在 没有 Wireshark 
的 情况 下 很 难 排 错 ， 经 营 不 得 不 冒 目地 检查 每 一 个 环节 ， 比 如 先 用 
rpcinfo 命 令 获 得 服务 右上 的 端口 列表 〈( 见 图 11〉 ， 再 用 Telnet 命 令 逐 个 
试探 ( 见 图 12〉 。 即 使 这 样 也 只 能 检查 几 个 关键 进程 能 人 奋 连 上 ， 排 查 汇 
图 非 常 有 限 。 


下 not 可 shifml:- 二 | | Bn 


[rcot@shitm] =]# rpcinfto -pp 10.32.106.662 |cogrep "portmmpper|mountdlnfta™ 

1 有 003 2 dp 20493 nf 

O00D03 de O49 -NE 

480603 2 EE 2043 1 

100003 ; 和 有 0 生 写 

100005 es 

O000s 工 芯 孔 习 

100005 ] EE 1] 2344 

1000D05 本 1 239 

10000s5 dE ee 

000D0s 1 DB 下 二 二 本 

108000 | 了 111 portmapper 

100000 2 Ep 111 :Fortmapper 
[rootf@shifm1 ~]# 





图 11 


[root@shifml1 tmp]# telnet 16.32.166.62 2849 
[root@shifml1 tmp]# telnet 10.32.1606.62 1234 
[root@shifm1l tmp]# telnet 16.32.166.62 111 


图 12 


用 上 Wireshark 之 后 束 可 以 很 有 和 针对 性 地 排查 了 。 例 如 ， 看 到 
portmap 请 求 没 有 得 到 回复 ， 束 可 以 考虑 防火 墙 对 111 妆 口 的 拦截 ; 如 果 
发 现 mount 请 求 补 服务 占 拒 绝 了， 束 应 该 检查 该 共 至 目录 的 访问 控制 。 

既然 说 到 访问 控制 ， 我 们 束 来 看 看 NFS 在 安全 方面 的 机 制 ， 包 括 对 
客户 问 的 访问 控制 和 对 用 户 的 权限 控制 。 

NEFS 对 客户 端的 访问 控制 是 通过 IP 地 址 实现 的 。 创 建 共 享 目录 时 可 
以 指定 哪些 卫 人 允许 读 写 ， 哪 些 耻 只 允许 读 ， 还 有 哪些 了 P 连 挂 载 都 不 多 
许 。 虽 然 配 置 不 难 ， 但 这 方面 出 的 问题 往往 很 "诡异 ”， 没 有 Wireshark 十 
几乎 无 法 排查 的 。 比 如 ， 我 磁 到 过 一 台 客 户 问 的 IP 明 明 已 经 加 到 允许 读 
写 的 列表 里 ， 结 果 却 只 能 谈 。 这 个 问题 难 住 了 很 多 工程 师 ， 因 为 在 客户 
绒 和 服务 器 上 都 找 不 到 原因 。 后 来 我 们 在 服务 右上 抓 了 个 包 ， 才 知道 在 


收 到 的 包 里 ， 客 户 端的 耳 已 经 被 NAT 设 备 转换 成 别 的 了 。 

NFS 的 用 户 权 限 也 经 常 让 人 困惑 。 比 如 在 我 的 实验 室 中 ， 客 户 端 A 
上 的 用 户 admin 在 /code 目 录 里 新 建 一 个 文件 ， 访 文件 的 owner 正 第 显示 为 
admin。 但 是 在 客户 闹 B 上 查看 该 文件 时 ，owner 却 变 成 nasadmin， 过 程 
如 下 所 示 。 

客户 痛 A (〈 见 图 13) : 

[admin@shifm1 /tmp]$ cp abc.txt code/abc.txt 


[admin@shifm1 /tmp]$ ls -1 code/abc.txt 
-rw-r--r-- 1 admin adm 491292 Jul 28 2613 code/abc.txt 


图 13 


客户 端 B〈 见 图 14) : 


[root@shifm2 /tmp]# ls -1 code/abc.txt 
-rw-r--r-- 1 nasadmin adm 491292 Jul 28 2813 code/abc .txt 


图 14 


这 是 为 什么 呢 ? 价 助 Wireshark， 我 们 很 容 多 束 能 看 到 原因 。 图 15 味 
示 了 有 用户 admin 在 创建 imp/code/abc.txt 时 的 包 。 


ND, SOUTrCE Destination Time Protecol Info 

4 10.32.106.159 10. 32:;106.62 2013-07-28 NFS V3 CREATE Call (Reply INn 6), DH: Ox2cc9belg,abec, txt 

5 10.32.106.62 C10.32.106.159 2013-07r—28 TCPF ntfs 5 FO8 [ACK|] Seg=121 Ack=281 Win=493152 Len=t TSwe 
二 一 一 De 
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团 Ethernet II, src: InNntel_ 4 :4 可 :ez tOD:04:23:04:4d:e2), Dst: Clariion 2b:5d:b2 OD:60:16:2b:d:b2 
国 INnternmet priotocol YeErsion 4, src: 10.32.106.159 (10.32.106.159), Dst: 10.32.106.62, (10.32.1065,62) 
回 Transmssion Control eel Src Port: ?O08 (708), Dst Port: ntfs (2049), seq: 125, Ack: 121, Len: 卫 56 
Remote Procedure Call, Type :call KID:Oxd83959i1c 
Fragmentc header: Last fragment, 152 byres 
xID: OxdB3959]¢c [3627637020) 
Message Type: Call (0) 
RPC Wersion: 2 
Program: NFS {i100003) 
Program Yersion: 3 
Procedure: REATE (BY 
[The reply to this reguest is jn frame €] 
credenrcials 
Flavor: AUTH_UNIX C1) 
Length: 32 
stamp: Ux00904baf 
Machine Name: shifmi 
UID: -SO 
GID: 村 





图 15 


由 图 15 中 的 Credentials 信 息 可 知 ， 用 户 在 创建 文件 时 并 没有 使 用 
admin 这 个 用 户 名 ， 而 是 用 了 admin 的 UID 501 来 代表 目 己 的 身份 〈 用 户 
名 与 UID 的 对 应 关系 是 由 客户 端的 /etc/passwd 决 定 的 ) 。 也 就 是 说 NFS 


协议 是 只 认 UID 不 认 用 户 名 的 。 当 admin 通 过 客户 端 A 创 建 了 一 个 文件 ， 
其 UID 501 束 会 被 写 到 文件 里 ， 成 为 owner 信 息 。 

而 当 客 户 妆 B 上 的 用 户 查 看 该 文件 属性 时 ， 看 到 的 其 实 也 是 “UID: 
501”。 但 是 因 ” 为 客户 端 B 上 的 /etc/passwd 文 件 和 客户 端 A 上 的 不 一 样 ， 
其 UID 501 对 应 的 用 户 名 叫 nasadmin， 所 以 文件 的 owner 吏 显示 为 
nasadmin 了 。 同 样 道 理 ， 当 各 户 疹 B 上 的 用 户 nasadmin 在 共 胖 目录 上 新 
建 一 个 文件 时 ， 客 户 新 A 上 的 用 户 看 到 的 文件 owner 束 会 变 成 admin。 为 
了 防止 这 类 问题 ， 建 议 用 户 名 和 UID 的 关系 在 每 台 客户 端 上 都 保持 一 
至 。 

卉 清 东 了 NEFS 的 安全 机 制 后 ， 我 们 册 来 看 看 谈 与 过 程 。 经 验 丰 遇 的 
工程 师 都 知道 ， 性 能 调 优 是 最 有 技术 含量 的 。 倍 助 Wireshark， 我 们 可 以 
看 到 NEFS 完 竟 是 如 何 读 写 文件 的 ， 这 样 才 能 理解 不 同 mount 参 数 的 作 
用 ， 也 才能 有 针对 性 地 进行 性 能 调 优 。 图 16 展 示 了 恋 取 文件 abc.txt 的 过 
汪汪 


[root@shifm1 tmp]# cat ass txt 





Filter: fe | | Erpression.. Cheat Apahy Save 


[Ne Destimation Tirme Protarcel Infa 
中 人 32. 106.159 10: 32.106.62 2013-07 -22 NFS WY3-ACCESS Call CReply In 3), FH: Ox2ccdbeld, Lecheck: RD EU MD XT DL] 
3 10.32.106.62 1090.32.106.159 严 加 ] 3-Q7-20 NFS Y¥3 ACCESS Reply CCall In 23,. [AlTowed: RD LU MD XT DL] 
5 10. 32.1065.159 10.32.106, 62 2013-07 -22 NFES V3 READDIRPLUS Call Creply In 6Y, FH: xzccgbels 
10.32,.106,62 10.32,.1065,159 2013-07-22 NFS V3 READDIRPLUS REpIY call In 53) , os lost+found .erc abc, txt 
$3216.159 10.32.1065,62 2013-07-22 NFS V3 GETATTR Call Reply In 2 , FH: 3 31352el 
a 10. 32.106.62 10.32.1065.159 201 3-07 -22 NFS V3 GETATTR Reply (Call In 8B) Regul File mode: 644 uid: 0 gid: 0 
11 10.32.106.159 1032.106;62 201 4=07 -22 NFS YW3 ACCESS Call CReply Im 12), FH: Ox531352 El， ee RD 网 D XT %E] 
二 10.32.106.62 1932.106,1539 2013-Q7 -22 NFS W3 ACCESS Reply CCall In 117,. [allowed: RD MD XT XE]] 
13 10.32.106.159 10.32.106,62 2013-07-22 NFES V3 READ call Reply INM 2Z92), FH: OX53135261 Offser: 0 Len: 131i072 
二 由 10.32.106.159 10.32.106,62 2013-07-22 NFS V3 READ CAall trReply 工科 i152), FH: OxS53135261 offser: 131072 Len: T31072 





i132 10.32.106.62 10.32.106,.1539 2013-07-22 NFS v3 READ Reply (call Im 14) Len: 1314072 
202 10. 32.106.62 10.32-.106.159 20]3-07-22 NES V3 .READ Reply (Call In 13) Len: 14072 
a94 10.32.106.159 10.32.106, 82 2013-07-22 NFS YW3 READ €All (Reply IT 446), FH: Ox 35el Offset: taald4 Len; 131072 
293 10.32,.100.133 10.32.106:62 ZUL3-W7 -ae NFS WwW3 READ Call Reply InN S548), FH: OX53135281 OfTfset: 393216 Len: S8076 
间 二 而 32, 15.62 10.32.1065,159 2013-07-22 NFS YW3 READ Reply tcall In 294) Len: 131i072 
3 0. 32.100.52 10.32.106,159 2013-07 -22 NFS V3 READ Reply (call In 295) Len: 398076 


图 16 


包扎 2 和 3 ( 见 图 17): 


2 10. 32.105.159 10. 32 -106. Lae 2013-07-22 NFS V3 ACCESS Call (Reply In 3), FH: Ox2ccgbeis, [check: RD 
3 10.32.105.62 10.32.105.159 -2013-07-22 NFS VY3 ACCESS Reply Ccall In zz [Allowed: RD LU MD XT DCL] 


图 17 


客户 端 : “我 可 以 进入 0x2cc9be18 〈 也 就 是 /code 的 file handle〉 吗 ?” 
“你 的 请 求 被 接受 了 ， 进 来 吧 。?” 
包 号 5 和 6 〈 见 图 18) : 


Mio DUFCe Destination Tirme Protocol Info 
5 10. 32,106,.159 10.32.105.62 2013-07-22 EFS V3 READBDIRPLUS call Reply In 6), FH: Ox2ccobelB 
10. 32; 106.62. 10.32.106.159 201L3-07-22 交 丰 右 V3 READDIRPELUS Reply (tcall In 5 ，，。 lost+found .etc abc.tnt 





图 18 


客户 疹 : “我 想 看 看 这 个 目录 里 的 文件 及 其 file handle。” 
服务 器 : “文件 名 及 file handle 的 信息 在 这 里 。 其 中 abc.txt 的 file 
handle 是 0x531352e1。?” 乌 ) 


包 写 8 和 9 〈 见 图 19) : 


No, 年 UFCE Destination Tirne Protecol Infe 
B10. 32.106.159 10.32.106.62 2013-07-22 风 FS VY3 GETATTR Call (Reply Im 9), FH: Ox531352e1 
9 10.32- N06.67 10.33.106.19 2013-07-22 NES V3 GETATITR Reply (trall Tn BY Regular File mnde: 


图 19 





客户 端 : “0x531352e1l1 (也 就 是 abc.txt) 的 文件 属性 是 什么 ?“ 
服务 器 : “权限 、uid、gid， 文件 大 小 等 信息 都 给 你 。” 包 号 11 和 
12〈 见 图 20) : 


NN Protocol Inte 


0, GUNTECE Destinatiern IF 
i111.32.106.15%9 10.32;106. b2 af 3-07-22 NFS VW3 ACCESS Call CReply Im 12), FH: Ox535281, [check 
12 10.32.106.62 10.32.106.1359 2 3-07-22 NFS V3 ACCESS Reply Ceall Im 11),. [Allowed: RD MD XT XE 


图 20 


客户 端 : “我 可 以 打开 0x531352e1 (也 就 是 abc.txt) 吗 ? ” 
服务 器 : “你 的 请 求 被 允许 了 。 你 有 读 、 写 、 执 行 等 权限 。?” 包 号 
13、14、152、292 ( 见 图 21) : 


Ns. Soree Destination Time Protecal Inta 
13 10.32.106:159 10.32-106:62 DLL 了 一 站 7 一 二 于 上 FF 瑟 V3 REREAD Call {Reply 工 292); FH: Ox53i352el1 Offset: 0 Len: 131072 
14 10.32.106.159 10,32.106, 62 201I3=07=22 NFS v3 READ Call| CReply In 152), FH: OxX531I2el Offset: 131072 Len: 131072 
i152 10,.32.106.62 10., 32,1065,159 2013-07-22 央 F 祥 V3 READ Reply (call In 14) Len;: 13i072 
292 10. 32.106.62 10.32-.1065.159 ai 3 一 站 了 一 正二 NF 写 V3 READ Reply Ccall In 13) Len: 131072 


图 21 


客户 疹 : “从 0x531352e1l 的 偏 移 量 为 0 处 〈《 即 从 abc.txt 的 开头 位 置 )》 
读 131072 字 节 。” 

客户 端 :“ 从 0x531352el 的 偏 移 量 为 131072 处 〈 即 接着 上 一 个 请 求 
读 完 的 位 置 ) 再 读 131072 字 节 。” 

服务 器 :“ 给 你 131072 字 节 。” 

服务 占 : “再 给 你 131072 字 节 。” 

(继续 读 ， 直 到 读 完 整个 文件 。) 

就 这 样 ，NEFS 完 成 了 文件 的 读 取 过 程 。 从 最 后 几 个 包 可 见 ，Linux 
客户 端 读 NFS 共 享 文件 时 是 多 个 READ Call 连续 发 出 去 的 〈 本 例 中 是 连 


续 两 个 ) 。 这 个 方式 跟 Windows XP 读 CIFS 共 享 文件 有 上 所 不 同 。 
Windows XP 不 会 连续 发 READ Call， 而 是 先 发 一 个 Call， 等 收 到 Reply 后 
再 发 下 一 个 。 相 比 之 下 ，Linux 这 种 读 方 式 比 Windows XP 更 高 效 ， 尤 其 
古 在 高 市 宽 、 高 延迟 的 环境 下 。 这 了 吏 像 叫 外 卖 一 样 ， 如 果 你 今 晚 想 吃 鸡 
妇 、 汉 堡 和 可 乐 三 样 食物 ， 那 合理 的 方式 应 该 是 打 一 明 电话 把 三 样 都 叫 
齐 了 。 而 不 是 先 叫 鸡 计 ， 等 鸡 怒 送 到 了 再 叫 汉堡 ， 等 汉堡 送 到 后 再 叫 可 
乐 。 除 了 读 文 件 的 方式 ， 每 个 READ Call 请 求 多 少数 据 也 会 影响 性 能 。 
这 台 Linux 默 认 每 次 旋 131072 字 和 节 ， 我 的 实验 宝 里 还 有 默认 每 次 谈 32768 
字 市 的 客户 问 。 在 局 性 能 环境 中 ， 要 手动 指定 一 个 比较 大 的 值 。 比 如 在 
我 的 Isilon 实 验 室 中 ， 常 常 要 调 到 512KB。 这 个 值 可 以 在 mount 时 通过 
rsize 参 数 来 定义 ， 比 如 “mount -0o rsize=524288 10.32.106.62:/code 
/tmp/code”。 

分 析 完 恋 操 作 ， 接 下 来 我 们 再 看 看 与 文件 的 过 程 。 拒 一 个 名 为 
abc.txt 的 文件 写 到 NFS 共 至 的 过 程 如 下 〈 见 图 22)。 


[root@shifmltmpl]# cp abc.txt code/abc.txt 


rifs ~ || Epression. Clear Apply day 


Surrc Protecol lnfo 
i 1 10. 312 106.159 10:12.106 62 2013-07-22 NFS WI ACCESS Call rReply In 2), Fll: Oxz2ccabel8, [Check: RD LU ND XT DL] 
2 10.32.105.62 10.32.106.159 2013-07-22 NFS V3 ACCESS Reply tcall 1), [Lallcowed: RD Ly MD XT DL] 
4 10. 32 106.150 10.32.106.62 2013-07-22 MNES V3 LOOKUP Call CReply Im 5), BDH: Uxccobelidabc.txt 
10. 32.106-62 10.32.106.159 .2013-07-22 NES WI LODKUP Reply CEall | a4) Error: MNES3ERR HOENT 
6 10.32.106.159 10.32.106;62 2013-07-22 NFS WY3 CREATE Call tpReply In DH: Dx2ccobelsabc, TXT MoOde; UNCHECKED 
ee 42, 1065. ee 10.32: 人 二 39 2013-0@7-22 NFS W3 TREATE Reply CCall In 


32:106-.159 10:32.106.62 2013-07-22 NFS WI3 WRITE Call Reply In a FH: Ox 人 i Et: 0 Len: 131072 UNSTABLE 
et I 432.106. a 10. 32, I 2013-07-22 NFS WYW3 WRITE Reply tcall ul 9) Len: 13107r2 U 
130 10. 32.1065.159 10.32.106.; 剖 2013-07-22 NFS YW3 WRITE Call CReply In 302), FH; x St SE a i131072 Len; i34072 UNSTABLE 
190 10.32.106:159 10.32.106: a 2013-07-22 NES WI3 WRITE Call (Reply i et FH: Dxs31352el Offset: 262144 Len: 1I1072 UNSTARBLE 


| 
| 
| 
251 10,.32.106.159 10.32.106.62 2013-07-=22 NMFS WI3 WRITE Call Reply Im $305, FH; OX531352el 人 393216 LEN: S076 UMSTABLE 
20 10. 32.106.62 11032.106139 2013-07-22 NFS V3 WRITE Reply tcall In 130y Len; 131072 UNSTABLE 
303 10. 32-. 106.62 10.32.106.159 2013-07-22 NFS Wa3 WRITE Reply tcall In 190% Len: L131077 UNSTABLE 
#07 40. 32. 105.62 10.32.106.159. 2013-07-22 NFS WY3 WRITE Reply tcall Im 251 Len: S8076 UNSTABLE 

306 10. 42 106.15$ 10. 32.106, © 2013-07 -22 NFS 内 COMMIT Call CReply In 307), FH; x3 $31 

307 10.32.106.62 10.32.106.159 .20134-07-22 NES YI COMAIT Reply Eall In 3067 

30B 10. 32,.105.159 10. 32.106,. 02 2013-07=22 NFS5 Wi GETATIR Call trReply InN 309), FH: NN 

309 10. 32.106.62 10 32.106.159 -2013-07-=22 NFS Y¥3 GETATIR Reply ticall Im 306 Regular 下 而 品 末 是: 莫如 i 可; 站 可 i 要: 站 


图 22 


包 号 1 和 2 ( 见 图 23) : 


No, Ourc Destination Tirme protoecol Info 
1 10. 32. i106.159 10. 106.62 2013-07-22 NFS V3 ACCESS Call (CReply In 2), FH: Ox2cc9belg, [Check: RD 
2 10.32.106.62 10.32.106.1359% 2013-07-22 NFS YW3 ACCESS Reply tcall Im 4), fallowed: RD LU MD XT DE] 


图 23 





客户 凯 : “我 可 以 进入 0x2cc9be18 〈 即 /code 目 录 ) 吗 ?” 服 务 
右 : “你 的 请 求 被 接受 了 ， 进 来 吧 。” 
包 号 4 和 5 〈 见 网 24) : 


No, Sog Destination Tim Protocol Info 
4 10, 33. i06:159 10.32.106.62 2013 G7 22 NEE V3 LOOKUP Call freply Im 357, BDH: Ox2ccobels,abc. txt 
5 10.32.106.62 10.32.106.159 2013-07-22 NFSs WY3 LOOKUP Reply (tcall IN #4) EFTOr: NFS3ERR_NOENT 


图 24 





符 尸 疡 : “请 问 这 里 有 叫 abc.txt 的 文件 么 ? ” 
服务 器 :“ 没 有 。”00 
包 写 6 和 7 ( 见 图 25) : 


No. 
& 10,32.1065.159 2 106. 下 也 2013-07—22 NFS V3 CREATE Call (Reply In 7); DH: Ox2ccgbels/abc, txt 
190.32.]06.62 10.32.106.159 201]3-07-22 NFS W3 CREATE Reply CCall In &) 


图 25 


符 户 闹 :“ 那 我 想 创建 一 个 叫 abc.txt 的 文件 。 
服务 器 : “ 没 问 题 ， 这 个 文件 的 file handle 是 0x531352e1。” 
包 号 64、104、130、190〈 兄 网 26) : 


No. ‘Source Destination Tirne Protecal Infe 
| 32,106.159 10,32,106062 2013-07=22 NFS YW3 WRITE Call Reply In lO4Y, FH: 0x531352el offser: 0 Len: 十 3 人 7 UNSTABLE 
1t4 10,.32,.106.62 10 32,106,159 2013-07-22 NES V3 RITE Reply (call In bo Le mn: 131072 UNSTABLE 
130 10. 32. 1065.159 10.32.106. 62 2013-07-22 FS WV3 WRITE Call Reply In 302}; FH: Ox53l352el Offset: 131072 Len: 131072 UNSTABLE 
i130 10.32.106:1539 10: 32.106.62 3-07 -2 NFS V3 WRITE Call Reply In 303}), FH: Ox531352eli Ps 必 有 有 寂 十 半 Len; 31i072 UNSTABLE 


图 26 


客户 端 : “从 0x531352el 的 偏 移 量 为 0 处 〈 即 abc.txt 的 文件 开头 ) 写 
131072 字 节 。” 

服务 器 : “第 一 个 131072 字 节 写 好 了 。” 

客户 端 : “从 0x531352el 的 偏 移 量 为 131072 处 《〈 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。” 

客户 端 : “从 0x531352e1 的 偏 移 量 为 262144 处 〈 即 接着 上 一 个 写 完 
的 位 置 ) 再 写 131072 字 节 。” 

(继续 写 ， 直 到 写 完整 个 文件 。 

包 号 306 和 307 ( 见 图 27) : 


Time 
306 es 3 106.159 i 3 106. 五 过 2013-07-22 NFS V3 COMMIT Call CReply IF 307)}), FH: Ox5314352e1 
307 10. 32.1065.62 10.32.106.1593 O13-07—22 NF SS V3 COMMIT Reply (Call In 306) 


图 27 





客户 端 : “我 刚才 往 0x531352el1 (也 就 是 abc.txt) 写 的 数据 都 存盘 了 
吗 ? >” 
服务 器 : “都 存 好 了 。” 届 


包 号 308 和 309 〈 见 网 28) : 


Neo, Source Destination Tirme Protocol Irfo 
308 10.32.106,.159 10.32.,106. 82 2013—07-22 NF5S W3 GETATTR Call {Reply Im 309), FH: Ox531352e1 
309 10.32.108,.62 10;32,106.159 2013-07-22 NFS WY3 GETATTR Reply (call Im 308Y Regular File mode 


图 28 


客户 端 :“ 那 我 看 看 0x531352el (也 就 是 abc.txt)〉 的 文件 属性 
服务 器 “文件 的 权限 、uid、gid、 文 件 大 小 等 信息 都 给 你 。” 
这 个 例子 的 写 操 作 也 是 多 个 WRITE Call 连 续 发 出 去 的 ， 这 是 因为 我 

们 在 挂 载 时 没有 指定 任何 参数 ， 所 以 使 用 了 默认 的 async 与 方式 。 和 
async 相 对 应 的 是 sync 方 式 。 假 如 mount 时 使 用 了 sync 参 数 〈( 见 图 29) ， 
客户 端 会 先 发 送 一 个 WRITE Call， 等 收 到 Reply 后 再 发 下 一 个 Call， 也 就 
是 说 WRITE Cal 和 WRITE Reply 是 交 蕉 出 现 的 。 除 此 之 外 ， 还 有 什么 办 
法 在 包 里 看 出 一 个 写 操 作 是 async 还 是 sync 呢 ? 答案 束 是 每 个 WRITE Call 
上 的 “UNSTABLE” 和 “FILE_SYNC” 标 志 ， 前 者 表示 async， 后 者 表示 
sync。 图 30 显 示 了 用 sync 参 数 后 的 网 络 包 


[root@shifml1 tmp]# mount -o Sync 16.32.166.62:/code /tmp/code 
[root@shifm1 tmp]# cp abc.txt /tmp/code/abc.txt 


图 29 


Fter | nts [= | Bpresion Clesr Apply Sove 

Ne Source [hestination 1 Pratecal 
1 10,32.106.159 10.3¢.106,.62 z0d 了 -站 7 -23 NF Y3 ACCESS Call CReply IN 2), FH: ON2CC9belB, ee RD LU MD XT DL] 
2 10.32.106; 562 -410.32.106.159 2013-07-23 NFS V3 ACCESS Reply Lcall In 1}, [allowed: RD LU M GL] 


dd 10,32,.106,159 10.32,.106.62 13-07 -23 NEF 与 3 LOGEUE c all 《RENTWw In S$) DH;: Oeccdbelb, i i 

5 10, 2. 105,62 10.32.105.159 2013-07-23 NFS WW3 LoonUp Reply CCall a Error: NESFERR MOENT 

6 10.32.106.159 10.32.106.62 201I-07 -23 NFS Ww3 CREATE Call {Reply Im 7), DOH: OxzccgbelB,abc. tut Mode: UNCHECKRED 

了 10,32.106.62 10.32.106.159 2013-07-23 NF5 Yi CREATE Reply ccall Im 6) 

在 和 9 二 32 T06139 10.32.106.62 2 中 3-07 -23 NFS Wa3 WRITE Call (Reply Im BS}, FH: Gn4fdabli2d ee D Len;: 131072 FILE.SYHNC 

B5 40, 32,.106,.62 10.32.106.159 220013-07-23 HFS Wi WRITE Replw Ccall In 69) Len: 13l072 FILE_SY 
137 10.;32:106.159 10.32.1065.62 2013-07 -23 NFS Wi WRITE Call Reply In 166), 年 Dxdfdablzd orfse et: 131072 Len: 131072 FILE_ SYNC 
二 在 看 10.32-.106.62 40.32-106.153 2013-07-23 NFS: Wi WRITE Reply (call In 137) Len: 141D072 FILE_ SY 
09 10, 32.106,159 10.32.106.62 13-07 -23 NFS  W3 WRITE Call trReply mn D5 FH: Ox4fdabi2 offser: 262144 Len: 131072 FILE_SYNC 
ds 0. 32.106,.62 10.32.106.159 -23-07-=23 NFS YW3 WRITE Reply (Call 209] Len: 131072 FIL 
a70 10, 32,106,159 10.32.106,62 3-M7 -23 HFS YW] WRITE Call {Reply Eh et i Dx 人 orrse et: J93216 Len: D076 FILE_SYRC 
305 10,32:106;62 10.32-.106:159 20]13-07-23 NFS W313 WRITE Replwy {call In 270] Len: 98076 FILE_SY 


图 30 


从 图 30 中 不 仅 可 以 看 到 FILE_SYNC 标 志 ， 还 可 以 看 到 WRITE Call 
和 WRITE Reply 是 交 蔡 出 现 的 〈 也 就 是 说 没有 连续 的 Call) 。 不 难 想 
象 ， 每 个 WRITE Call 写 多 少数 据 也 是 影 啊 写 性 能 的 重要 因素 ， 我 们 可 以 
在 mount 时 用 wsize 参 数 来 指定 每 次 应 该 号 多 少 。 不 过 在 有 些 澡 户 关上 局 
用 sync “参数 之 后 ， 无 论 wsize 定 义 成 多 少 都 会 要 强制 为 4KB， 从 而 导致 
写 性 能 非常 差 。 那 为 什么 还 有 人 用 Sync 方式 昵 ? 答案 是 有 些 特殊 的 应 用 


要 求 服务 需 收 到 Sync 的 写 请 求 之 后 ， 一 定 要 等 到 存盘 才能 回复 WRITE 
Reply，sync 操 作 正 符合 了 这 个 需求 。 由 此 我 们 也 可 以 推出 COMMIT 对 
于 sync 写 操作 是 没有 必要 的 。 

非常 值得 一 提 的 是 ， 经 向 有 人 在 mount 时 使 用 noac 参 数 ， 然 后 肥 现 
该 与 性 能 都 有 问题 。 而 根据 RFC 的 说 明 ，noac 只 是 让 客户 闯 不 绥 存 文件 
属性 而 已 ， 为 什么 会 影 啊 性 能 呢 ? 光 看 文档 也 许 永 远 肥 现 不 了 原因 。 抓 
个 包 吧 ，Wireshark 会 告诉 我 们 答案 。 

先 看 写 文 件 的 情况 〈 见 图 31) : 


[root@shifm1 tmp]# mount -o noac 16.32.166.62:/code /tmp/code 
[root@shifm1 tmp]# cp abc.txt /tmp/code/abc.txt 


图 31 


在 图 32 中 ， 从 Write Call 里 的 FILE_SYNC 可 以 知道 ， 虽 然 在 mount 时 
并 没有 指定 sync 参 数 ， 但 是 noac 把 写 操作 强制 变 成 sync 方 式 了 ， 性 能 
然 也 会 下 降 。 


Filter: ‘rife = ee | Exprersion.., Clear Lemly ave 
Na. ouUrce Cestination Tirne Pratcocol ]rrfa 
1 10, 32.106,159 10.32.106,62 2013-07-22 ES WH GETATTR Call CReply In 2), FH: Ox2ccdbelB 
2 10.32-106.62 10:32-106.159 2013-07-22 NES VW3 GETATTR Reply Ccall Im 1 Directory mde: 0755 utd: 0 gid: 0 
4 10, 32.106,159 10.32.106,62 201 #07-22 NFS V3 ACCESS Call Reply In 5), FH: OXeccobeis, [check: RD LU MO XT OL] 
了 10.32.106,62 10.32.106,159 2013-07-22 NES V3 ACCESS Reply tcall In 4), [Allowed; RD LU MD XT DL] 
b 10, 42.106,.159 10.32:106.62 201 3-07-22 NFS V3 READDIRFELUS Call CReply Im 3), FH: Ox2ccdbelis 
7 10.32.106.62 10.32.106.159 2013-07-22 NFS YW3 READOIRPLUS Reply Ccall In 6 . .. laost+found .etc 
10, 32.106,159 10.342.106.62 20L3-07 = NFS5 WV3 ACCESS Call CReply In 10%, FH: Ox2ccobelB, [check; RD LY MD XT DL] 
10 10,.32.106,62 10.32.106,159% 2013-07-22 NFS WV3 ACCESS Reply tcall In 39}, [Allowed; RD LU MD -XT DL] 
12 10,. 332.106,153 10.32.106.62 2013-07 22 了 FS WV3 LOGRUP call CReply InN 134), CDH: Dx2ccdbelBabec, txt 
13 10. 32:106.62 10.32.106.159 2013-07-22 NFS V3 LOGNUP Reply (Call In 12Y Error: NFS3ERR_NOENT 
14 10. 32.106,159 10.32.106.62 203-07=22 NFS V3 CREATE Call CReply In 15), oH: Ox2ccobelBabc, AT MOode; UNCHECKED 
15 10.32.106.62 10.327:106.159 2013-07-22 NFS V3 CREATE Reply (call In 14) 
ib 18. 32.106,159 10.32.106,62 2013-07-22 站 FS Wa CETATTR Call CReply In 工 ? FH: Dxddedb2bf 
17 10- 32-106. 6562 10.32.106.159 2013-07-22 NFS WV3 GETATTR Reply tcall Im 16) Regular File mode: O644 wid: 0 gid: o 
79 10. 32.106,1593 10.32,106;62 a0 3-07 -2 NFS VY3 WRITE Call tReply In 95), FH: ONBS953b2bf offser: 0 Len; 13107r FILE_SYNE 
9 10.32.1406,62 10.32.106.15% 20413-07-22 NFS V3 WRITE Reply tcall In ?9% Len; 131072+ FILE_SYMC 
id 10. 32.106,.153 10.32.106.62 2013-07 22 NES v3 WRITE Call (Reply In 175}, FH: OxBysi3b2bf offset: 131072 Len: T31072 FILE_SYNC 
175 10.32.106.652 10.32.106:159 2013-07-22 NFS V3 WRITE Reply (call In 147% Len: 131072 FILE_SYNC 
21B 10, 32,.106,.159 10,.32.106,62 20L3-07-22 NFS YW3 WRITE Call trReply IN 234), FH: OxWBI63b2bt offser: 262144 Lem: 1310r2e FILE_ SYNC 
2 10.32.106.62 10.32.106,1539 2013-07-22 NFS v3 WRITE Reply (Call In 218) Len: 131072 FILE_SYNC 
$id 10, 32.106,159 10; 42.106,62 L307 22 NFS W3 CETATTR Call CReply In 3 FH: OxES63b2bT 
315 10. 32.1065.62 10-32.106:159 2013-07-22 NFS VW3 GETATTR Reply CCall Im 318 Regular File mode: O644 uid: 0 gid: 0 


图 32 


再 看 谈 文 件 时 的 情况 〈 见 图 33) : 
[root@shifml tmpl# mount -o noac 10.32.106.62:/code /tmp/code 


[root@shifml tmpl# cat /tmp/code/abc.txt 


























| Filter: nm- =| Expressiom., Clesr Aprly Sawe 
No, 与 右 WTC 意 Destination Tirme Prabocol Infe 


1 10.32-.106.159 10-.32.105.62 2013-07-22 NFS WV3 ACCESS Call (Reply In 2); FH: Oxiccgbeig8, [check: RO LU MD XT DL] 
2 10.32.106.62 10.32.1065-159 2 人 1 3-D7- 之 2 NFS WA ACCESS Reply tCall Im 1), [allowed: RD LU MD XT DL] 
a 10.32.106.133 lO: 32. 106.62 O13-Q7-22 NFS WA3 GETATIR call CReply Im 5}, FH: Oxbfcaat3s 
$10.32.106.62 10.32.106.159 2013-07-22 NFS W3 GETATIR Reply Ceall In 4 Regular File mode: 5644 vid; 0 gid: © 
在 40.32.106.159 10.32.106, G2 2043-07-22 NFS V3 ACCESS Call CReply Im 7), FH: OxXbfcazf356, [check: RG MD XT XE] 
了 10.32.106,.62 i0.32.106.159 20143-07-22 NFS YW3 ACCESS Reply tcall In 6), [Allowed: RD MD xT »%E] 
8 10.32.106.159 190.32.1065.;62 2013-07-22 NFS Ww3 GETATTR Call Reply In 9), FH: Dxbfca2f36 
10.32.1065.62. 10.32.106.1359 203-07=22 NFS Wi GETATIR Reply tcall In 6 Regular File mode: W644 vid; 0 -gid: 四 
0 10.32.1065;1533 Tu. 32.106.62 2 3-d7-22 NFS WwW3 READ Call CtReply Im 152), FH: Oxbfcazf36 offset: 0 Len: 131072 
11 10.32.106.159 10.32,106.62 2013-07-22 NFS WVW3 READ Call Reply Im 293),. FH: OXbfcazf36 offser: 1314072 Len: 131072 
i152 10.32.1065.62 10.32.106.1459  C 2013-07-22 NFS WV3 READ Reply (call Im 10) Len:; 131072 
293 10.32.1065.62 10.32.106.139 2 和 7- 这 2 NFS WI3 READ Rep ly call In 11) Len; 131072 
2 10. 32-.106.159 10.32.106.62 站 上 1 33-07 一 之 Y NFS Wi GETATIR Call CReply In 296), FH: Oxbfca2f36 
296 10.32.106.62. 10.32.106.159 203-07-22 NFS Wi GETATIR Reply teall Im 295) Regular File mode: D644 uid: 站 gid: 0 
297 10.32.106.1593 10.32. T0656.62 3-07-22 NFS W3 AREAD Call CReply InN S40), FH: Oxbfcazf 36 Offset: 262144 Len: 13L072 
298 10.32.106.159 10.32.106.02 2013-07-22 NFS WV3 READ Call Reply 工科 400),. FH: Oxbfrcazf36 offser: 393216 Len: 98076 
OO 10.32.1065.62 10.32,.106.159 3- 7-222 NFS W3 READ Reply (call In 298) Len;: S8076 
dD 10-.32-106-62 10.32-106:i139 2 人 13- 器?7-22 NFS Ww3 READ Reply tcall In 297) Len: 131072 
G1] 0.32.106.159 10.32.1065.62 2013-07 -22 NF5S WA GETATIR Call CReply Im S42), FH: Oxbfca2f36 
2 10.32.1065.62 19.32,105.159 20013-07-22 NFS WwW3 GETATIR Reply ceall Im 541) Regular File mode: 06544 uid: @ gidg: 0 
3 10.32.106.159 10.32.1086.62 2 3-07-22 NFS W3 GETATIR call CReply In 544), FH: Oxbfca2f36 
S44 10.32.105.62 10.32.106.159 2043-07-22 NFS WwW3 GETATTR Reply tcall In 543}) Regular File mode: 0644 utd: 0 oid: & 
5 0. 32.106.159 10.32.106.62 2 3- 人 D7- 之 2 NFS W3 GETATTR Call CReply Im 346), FH; Oxbfca2f3¢ 
S46 10.32-106.62 10-32-105.1i59 2013-07-22 NFS Wi GETATTR Reply tcall In S45 Regular File mode: 0644 wuid: 8 gid: OD 


图 33 


从 图 33 中 可 以 看 到 ， 在 读 文 件 过 程 中 ， 客 户 闹 频 尝 地 通过 
GETATTR 碍 询 文 件 属性 ， 所 以 读 性 能 也 受到 了 影响 ， 在 高 延迟 的 网 络 
中 影 啊 尤 为 明显 。 

纵 观 全 文 ， 我 们 分 析 了 挂 载 过 程 的 每 个 步骤 ， 理 清 了 NEFS 的 安全 机 
制 ， 还 研究 了 读 写 过 程 的 各 种 细节 ， 几 乎 把 NFS 协 议 的 方方面面 都 禾 闸 
了 。 如 果 你 认真 读 完 本 文 ， 可 以 说 对 NFS 的 理解 已 经 达到 很 高 的 境界 ， 
以 后 倍 到 类 似 noac 这 般 隐 蔽 的 问题 也 难 不 倒 你 。 假 如 真能 遇 到 玉手 的 难 
题 ， 我 建议 用 Wireshark 分 析 。 一 旦 用 它 解 决 了 第 一 个 问题 ， 茶 豆 你 ， 人 很 
快 融会 中 毒 上 妾 的 。 中 毒 之 后 会 有 什么 症状 呢 ? 你 可 能 碰 到 什么 问题 都 
想 抓 个 包 分 析 ， 束 像 小 时 候 刚 学 会 骑 车 一 样 ， 到 小 区 门口 打 个 着 油 都 要 
有 





从 Wireshark 看 网 络 分 层 


对 于 刚 上 网 络 课 的 学 生来 说 ， 最 难 理解 的 喘 过 于 网 络 分 层 了 。 

“只 不 过 是 传输 一 些 数据 ， 为 什么 要 分 那么 多 层次 呢 ?” 这 是 大 学 
一 直 困 扰 我 的 问题 。 虽 然 读 本 在 此 处 化 费 了 不 少 笔 琶 ， 但 还 ea 
象 ， 我 始终 无 法 想像 一 个 网 络 包 里 的 层次 究竟 是 什么 样子 ， 这 对 一 名 网 
络 工程 师 来 说 是 不 可 接受 的 ， 束 像 连 右 官 都 分 不 清楚 的 医生 ， 谁 能 放心 
让 他 做 手术 呢 ? i 来 过 到 Wireshark， 才 算 解 开 了 这 个 疑问 。 

前 文 已 经 介绍 过 NFS 协 议 ， 我 们 便 以 它 为 例 来 学 习 网 络 分 层 。 图 1 
是 客户 端 10.32. 106. 159 往 服务 髓 10.32.106.62 上 与 文件 时 抓 的 网 络 包 。 


Na -Source Destiriaticon Praotocel Irife 
13 10, 32,106.159 二 看。 了 了。 工 丰 看。 在 了 了 站 二子 -站 由 一 卫 站 :霸王 在 NFS V3 CREATE Call tfReply In 143, DH:Ox2ccdbelb/test, txt MOode: UNOHECKRED 


二 TD, 32 L106. 62 卫生 手 芝 ,二 各 后 ,5 写 2013-0—11 10:1d:10 NFS V3 ee Reply (call In 13) 
MFES 有 [| 民 E ss ET 让 





| Pe 中 > FE 起 一 和 3 1 中 :者 下 辣子 目 Cn 1 
16 10, 32. 106. 0 ] 和 3 TER sr se0= 站 | ee rar TE 码 nr par 
17 46, $42.106.62 10 .30.106.159. 2013-09-11 10:14:10 NFS i TE Re sp Cea 11_ In 和 Len:24 FILE_ SWC 


如 Frame 15; 250 bytes e C200D bitsy, 250 bytes captured opt Etsy 
| ET net II， EH a el 2 下 下 的 da), Dsts Clariiomn 0 于 可 二 四 COO:601l6:2b: 5d:b2y 

日 | 1, src: 10:32.106-:159 (10.32:106.159), Dst: i 2 106-62 {10.32.106-627 

日 A 551on control Frotocol, sre Port: 804 C804), pstT FOrT: nfs C2049), Seq: 605, ACK: U37, Len; 于 和 
H Remote Procedure Call, Type: ca1] xID:Ox37706far 

| 田 Network File Systems WRITE Call FHiDxf Brarded offset:d Leni28 FILE_SYRIC 


i060 00 66 16 2b 5 可 ee 0 2¥ M49 ez OB 0 45 00 -+1 证 -出 ,上 E- 
8 和 | 


Ioofo 65 73 74 20 66 69 6C 65 2e Da 





这 5 个 包 大 概 做 了 下 面 这 些 事 。 

各 户 着 : “我 想 创建 test.txt。” 

服务 器 : “创建 成 功 啦 〈 该 文件 的 包 e handle 是 0xf87a7de0， 点 开 包 
才能 看 到 ) 。” 

客户 病 : “我 想 写 28 个 字 节 到 该 文件 里 〈 这 些 字 节 显 示 在 几 1 的 右 下 
角 ) 。” 

服务 器 :“ 收 到 啦 。” 

服务 硕 : “ 写 好 啦 。” 


其 中 第 3 个 包 《〈 编 号 为 15) 的 详情 如 图 2 所 示 。Wireshark 已 经 形象 地 
把 这 个 包 的 内 容 用 分 层 的 吉 构 显示 出 来 。 


No 20urce Destination Time Protocol Info 
15 LO， RITE C 


32.106.159 10.32,106.652 2013=0B8-11 10:14:10 NN 





9 Frame 15: 250 bytes on wire (2000 bits), 250 bytes captured (2000 bits) 
网 阁 接 口 层 相 ee Ethernert IIT, src: Intel_d4:4d:e2 (00:04:23:d4:4d;e2), Dst;: Clariion 2b:;5d 
网 修 豆 这 后 -ge TInternet Protocol, sre: 10.32.106.159 (C10.32.106.159), Dst: 10.32.106.62 1 
尾 精 中 看 于 si Transmission Control Protocol, Src Fort: B04 (S04), Dst Port: nfs (2049), 
庶 用 质 司 Remote Procedure Call, Type:call xID:Ox37796far7 
9 Network File System, WRITE Call FH:Oxf87a7ded0 offset:0 Len:28 FILE_SYNC 


图 2 





应 用 层 : 由 于 NFS 是 基于 RPC 的 协议 ， 所 以 Wireshark 把 它 分 成 
NFS 和 和 RPC 两 行 来 显示 。 仔 细 检 查 这 一 层 的 详细 信息 ， 会 发 现 它 只 专注 
于 文件 操作 ， 比 如 读 或 者 写 ， 而 对 于 数据 传输 一 无 所 知 。 点 开 “+” 号 便 
角 看 到 这 个 写 操 作 的 评 情 ， 比 如 用 户 的 UID、 文 件 的 科 e handle 和 要 与 的 
字 节 数 等 。 


传输 层 : 这 一 层 用 到 了 TCP 协议 。 应 用 层 所 产生 的 数据 就 是 由 
TCP 来 控制 传输 点 开 TCP 层 前 的 “+” 写 ， 我 们 可 以 看 到 Seq 写 和 Ack 
导 等 一 系列 信息 ， 它 们 用 于 网 络 包 的 排序 、 重 传 、 流 量 控制 等 。 虽 然 名 
有 “传输 层 *”， 但 它 并 不 是 把 网 络 包 从 一 个 设备 传 到 男 一 个 ， 而 只 是 对 传 
答 行 为 进行 控制 。 真 正人 负 贡 设备 间 传 输 的 古 下 和 耐 两 层 。TCP 是 非常 有 用 
的 协议 ， 也 是 本 书 的 重点 。 


网 络 互 连 层 《网 络 层 ) : 在 这 个 包 中 ， 本 层 的 主要 任务 是 把 TCP 
层 传 下 来 的 数据 加 上 目标 地 址 和 源 地 址 。 有 了 目标 地 址 ， 数 据 才 可 能 送 
达 接 收 方 ， 而 有 了 J 了 源 地 址 ， 接 收 方才 知道 友 壕 方 古 谁 。 


”网 络 接口 层 〈 数 据 链 路 层 ) : 从 中 可 以 看 到 相 邻 两 个 设备 的 MAC 
地 址 ， 因 此 该 网 络 包 才能 以 接力 的 方式 送 达 目标 地 址 。 


从 这 个 例子 中 ， 我 们 可 以 看 到 网 络 分 层 就 像 是 有 序 的 分 工 。 每 一 层 


者 有 目 己 “的 黄 任 范围 ， 上 层 协议 完成 工作 后 吏 区 给 下 一 层 ， 最 终 形成 
一 个 完整 的 网 络 包 。 这 个 过 程 可 以 用 图 3 表示 。 


NFS 涉 +Data 网 络 互 连 层 
图 3 


现在 回想 起 来 ， 如 末 当 时 老师 能 打开 Wireshark， 让 我 们 看 到 这 些 实 
实在 在 的 分 层 ， 我 也 不 会 困惑 那么 人 了 【假如 那天 我 没有 逃课 的话 )〉。 
不 过 教科 书 上 有 一 个 例子 ， 倒 的 确 是 很 有 助 于 理解 分 层 的 ， 这 么 多 年 之 
后 我 还 记得 它 一 有 位 经 理想 给 为 一 个 城市 的 经 理 寄 个 文件 ， 过 程 大 概 如 
图 4 所 未 。 

















网 络 接口 层 





秘书 

@ 此 
邮 坦 员 

G) 
邮政 车 邮政 车 


图 4 


这 个 场景 中 的 4 个 角色 可 以 对 应 网 络 的 4 个 层次 ， 每 个 角色 都 有 上 自己 
的 分 工 ， 最 终 完 成 文件 的 送 达 。 分 工会 带 来 很 多 好 处 ， 因 为 每 个 人 都 可 
以 专注 目 己 擂 长 的 领域 ， 更 好 地 服务 他 人 。 经 理 不 一 定 要 学 会 开车 ， 束 
像 写 NFS 代 码 的 程序 员 可 以 ”完全 不 异 路 由 协议 。 秘 书 可 以 服务 多 名 经 
理 ， 正 如 TCP 层 可 以 支持 很 多 应 用 层 协 议 。 

如 果 让 邮递 员 包 揭秘 书 的 工作 ， 是 否 也 可 以 呢 ? 说 不 定 也 能 做 到 ， 
虽然 听 上 去 很 清 稿 。 历 史上 还 真 存 在 过 这 种 情况 一 TCP 和 了 了 刚 友 明 的 时 
候 束 是 合 在 一 层 的 ， 后 来 才 拆 成 两 层 。 那 么 ， 如 果 在 经 理 和 秘书 之 间 加 
个 助理 ， 专 门 负 贡 检 碍 错别字， 会 有 问题 吗 ? 与 很 多 官 优 作 风 严 重 的 机 
构 一 样 ， 多 盖 一 个 章 就 要 多 花 一 些 时 间 。 还 记得 20 世 纪 那 场 OSI 七 层 模 
型 与 TCP/P 模 型 的 竞争 吗 ? 最 终 胜出 的 束 是 分 层 更 简单 的 TCP/IP 模 型 。 
要 知道 网 络 分 层 的 目的 并 不 仅仅 是 完成 任务 ， 而 是 要 用 最 好 的 方式 来 完 
成 。 

理解 了 分 层 的 基本 概念 ， 我 们 再 来 看 看 复杂 一 点 的 情况 。 如 采 这 个 
写 操作 比较 大 ， 变 成 8192 字 节 ，TCP 层 又 该 如 何 处 理 ? 是否 也 是 简单 地 
加 上 TCP 头 就 交 给 网 络 互 连 层 《网络 层 ) 呢 ? 答案 是 否定 的 。 因 为 网 络 
对 包 的 大 小 是 有 限制 的 ， 其 最 大 值 称 为 MTU， 即 “最 大 传输 单元 ”"。 大 多 
数 网 络 的 MTU 是 1500 字 节 ， 但 也 有 些 网 络 局 用 了 巨 帧 (Jumbo 
Frame) ， 能 达到 9000 字 节 。 一 个 8192 字 节 的 包 进 入 巨 帧 网 络 不 会 有 问 
题 ， 但 到 了 1500 字 贡 的 网 络 中 职 会 朴 丢 弄 或 者 切 分 。 航 丢 庆 意 味 独 传输 
彻底 失败 ， 因 为 重 传 的 包 还 会 再 一 次 被 丢弃。 而 被 切 分 则 意味 着 传输 效 
座 降 低 。 

由 于 这 个 原因 ，TCP 不 想 简 单 地 把 8192 字 节 的 数据 一 口气 传 给 网 络 
互 连 层 ， 而 是 根据 双方 的 MTU 决 定 每 次 传 多 少 。 知 道 目 己 的 MTU 容 
易 ， 但 对 方 的 MTU 如 何 获 得 呢 ? 如 图 5 所 示 ， 在 TCP 连 接 建 立 (三 次 握 
手 ) 时 ， 双 方 都 会 把 日 己 的 MSS (Maximum Segment Size) 告诉 对 方 。 





图 5 


在 第 一 个 包 里 ， 客 户 端 声明 目 己 的 MSS 是 8960， 意 味 着 它 的 MTU 
就 是 8960+20 (TCP 头 ) +20 〈(IP 头 ) =9000。 在 第 二 个 包 里 ， 服 务 器 声 
明 上 自己 的 MSS 是 1460， 意 味 着 它 的 MTU 束 是 1460+20+20=1500。 图 6 是 
TCP 连 接 建 立 之 后 的 写 操作 ， 我 们 来 看 看 究竟 是 哪个 MTU 起 了 作用 。 

客户 疾 在 包 号 46 创 建 了 abc-txt， 然 后 通过 48、49、51、52、54 和 55 

共 6 个 包 完 成 了 这 个 8192 字 和 的 与 操作 。 这 些 包 的 大 小 符合 接收 方 的 
MTU 1500 字 节 〈 见 图 6 中 划 线 的 Total Length: 1500) ， 而 不 是 发 送 方 本 
身 支持 的 9000 字 他。 也 束 是 说 ， 接 收 方 的 MTU 起 了 决定 作用 。 
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56 10-342.106.62 10.32-106:159 2013-08-14 13:27:13 TEP nis s silc [Ack] Seq=BE5 ACk=9133 Win=393216 Len=0 TSual=472931 = 
7 10.32.1065.52 10.32.106,159 O13-08-14 13:27:13 NES W3 i Rep ly dh, 工作 55Y Len:Blge FILE_SYTC 
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图 6 


假如 把 客户 端 和 服务 器 的 MTU 互 换 一 下 ， 这 时 客户 端 最 大 能 发 出 
多 少 字 节 的 包 呢 ? 答案 还 是 1500。 因 为 无 论 接 受 方 的 MTU 有 多 大 ， 发 
大 方 都 不 能 及 出 超过 目 己 MTU 的 包 。 我 们 可 以 得 到 这 样 的 结论 : 及 包 
的 大 小 是 由 MTU 较 小 的 一 方 决定 的 。 

这 个 例子 告诉 我 们 ， 分 层 之 间 的 天 系 还 不 仪 是 分 工 。 信守 分 层 鸭 协 
议 ， 比 如 TCP， 其 公会 主动 为 下 一 层 春 想 ， 从 而 避免 很 多 问题 。 当 然 这 
个 方案 还 不 算 完 美 。 如 果 网 络 路 径 上 存在 着 一 个 MITU 小 于 1500 的 设 
备 ， 这 个 包 还 是 可 能 和 被 丢 弄 或 者 切 分 。 正 如 Wikipedia 所 说 ,，“There is no 
simple method to discover the MTU of links”。 


一 个 分 层 的 概念 就 写 了 这 么 多 ， 你 或 许 早 就 开始 纳 问 ， 为 什么 网 络 


要 设计 得 如 此 复 洒 ? 义 是 分 层 义 是 分 组 的 。 其 实 当 我 家 各 种 难题 摘 得 焦 
头 烂 额 的 时 候 ， 也 有 过 这 个 想法 ， 但 无 条 这 隐 是 现实 一 假如 没有 这 么 复 
隶 的 设计 ， 网 络 驶 不 会 如 此 强大 ， 也 过 不 到 今天 的 规模 。 从 已 一 个 角度 
考虑 ， 正 古 复 末 的 设计 才 让 我 们 有 了 这 份 工 作 ， 感 谢 祖师 备 们 网 饭 。 


TCP 的 连接 局 稼 


听 说 现在 的 年 育 人 可 以 用 手机 播 到 妹子 ， 可 惜 在 我 们 那个 年 代 ， 手 
机 的 主要 功能 只 有 两 个 一 电话 和 和 短信。 人们 和 攒 直觉 决 定 该 打 电 话 还 是 发 
旺 信 ， 却 很 少 去 深 守 这 两 着 的 本 质 差 别 。 

打 电 话 时 要 先 拨 和 号 ， 等 接 通 之 后 才 开 始 讲话 。 如 果 有 人 还 没 拨 与 束 
对 痢 电 话 目 言 目 语 ， 劳 人 一 定 会 澳 得 很 诡异 。 而 及 短信 时 根本 不 用 考 谍 
对 方 在 和 干果， 直接 发 出 去 束 是 了 。 这 两 种 方式 的 本 质 差 别 了 加 是 ， 打 电话 
时 要 移 “ 建 立 连 接 ”( 即 拨号 ) ， 而 短信 不 需要 。 建 立 连 接 需 要 化 费 一 些 
时 间 ， 但 也 意味 看 更 加 可 徘 。 我 们 可 以 在 电话 上 确 你 对 方 已 经 昕 明日 。 
而 短信 就 不 行 了 ， 发 送 之 后 并 不 知道 对 方 是 否 及 时 收 到 ， 也 不 知道 有 没 
有 产生 误解 。 有 一 个 突 话 这 样 调 候 短信 所 引 及 的 事故 一 出 差 的 丈夫 一 大 
时 就 给 妻子 友 了 条 短信 “] had a wonderful night, and really wish you were 
here”。 不 对 的 是 ， 他 少 打 了 最 后 一 个 “e”， 这 个 误会 佑 计 需 要 一 个 面 对 
面 的 连接 才能 化 解 。 

网 络 的 传输 层 和 手机 一 样 用 于 传递 信息 。 它 也 有 两 种 方式 一 TCP 和 
UDP， 其 中 TCP 是 基于 连接 的 ， 而 UDP 不 需要 连接 。 它 们 各 自 支 持 一 些 
应 用 层 协 议 ， 但 也 有 些 协 议 是 两 者 部 文 持 的 ， 比 如 DNS。 我 们 正好 可 以 
用 DNS 来 比较 TCP 和 UDP 的 差别 。 在 我 的 实验 室 中 ， 客 户 姗 
10.32.106.159 向 DNS 服务 器 10.32.106.103 发 起 一 个 DNS 查询 ， 以 期 获得 
paddy_cifs.nas.com 所 对 应 的 IP 地 址 。 

1. DNS 默认 使 用 UDP 的 情况 下 〈 见 图 1) : 


[root@shifm1l ~]# nslookup 

> paddy cifs.nas.com 

Server: 16.32 .166 .163 
Address : 160.32.166 .163#53 
Name: paddy cifs.nas.com 
Address: 160.32.166.77 

>exit 


这 个 过 程 的 所 有 网 络 包 如 图 2 所 示 : 


No, Source Destiriatton Tirme Protoecol Info 
和 32.106.159 10. 32. 2 ee Ee Ee 3 0 2 52 DNS ed EE A Ee nas. com 





2. 用 set vc 强制 DNS 使 用 TCP 的 情况 下 ( 见 图 3) : 


[root@shifml ~]# nslookup 

> set vc 

> paddy cifs.nas.com 

Server: 160.32.166.163 
Address : 10.32.166.103#53 
Name: paddy cifs.nas.com 
Address: 16.32.196.77 

>exit 


图 3 
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图 4 


从 这 两 种 情况 的 截图 可 以 看 到 ， 真 正 起 俘 询 作用 的 只 有 两 个 DNS 


客户 端 : “paddy_cifs.nas.com 的 IP 是 多 少 啊 ? ” 

服务 器 :“ 是 10.32.106.77。” 

在 使 用 UDP 的 情况 下 ， 的 确 只 用 这 两 个 包 束 完成 了 DNS 人 查询 。 但 在 
使 用 TCP 时 ， 要 先 用 3 个 包 ( 包 号 1、2、3) 来 建立 连接 。 查 询 结束 后 ， 
又 用 了 4 个 包 〈 包 号 7、8、9、10) 来 断 开 连接 。Wireshark 把 这 两 种 情况 
的 委 别 完全 显示 出 来 了 。 我 们 可 以 从 中 看 到 连接 的 成 本 远 远 超过 DNS 得 
询 本 身 ， 这 对 运 忙 的 DNS 服务 喜 来 说 无 疑 是 巨大 的 压力 。 如 有 果 你 的 
DNS 还 在 使 用 TCP， 该 考虑 更 改 了 。 

连接 当然 要 付出 代价 ， 但 融 来 的 好 处 也 很 多 ， 这 吏 是 为 什么 多 数 应 


用 层 协议 还 是 基于 TCP 的 原因 。 在 以 后 的 章节 里 ， 你 将 从 Wireshark 看 到 
TCP 的 巨大 优势 ， 不 过 在 此 之 前 ， ny 
Wireshark 上 能 看 到 很 多 TCP 参 数 ， 理 解 了 它们 束 是 学 习 TCP 最 好 的 开 
始 。 图 5 是 10.32.106.159 往 10.32.106.62 传 数据 的 过 程 。 我 已 经 把 一 些 参 
数 用 肿 栓 标志 出 来 ， 以 全 阅读 时 参照 。 
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Seq: 表示 该 数据 段 的 序号 ， 如 图 5 中 的 Seq 王 3681。 

TCP 提 供 有 序 的 传输 ， 所 以 每 个 数据 段 都 要 标 上 一 个 序号 。 当 接收 
方 收 到 乱 序 的 包 时 ， 人 我 们 不 一 定 要 知 
道 Seq 号 的 起 始 值 是 怎么 算出 来 的 ， 但 必须 理解 它 的 增长 方式 。 如 图 6 所 
示 ， 数 据 段 1 的 起 始 Seq 号 为 1， 长 度 为 1448〈 意 味 着 它 包 含 了 1448 个 字 
符 ) ， 那 么 数据 段 2 的 Seq 号 就 为 1+1448=1449。 数 据 段 2 的 长 度 也 是 
1448， 所 以 数据 段 3 的 Seq 号 为 1449+1448=2897。 也 就 是 说 ， 一 个 Seq 号 
TR EO FA 


数据 段 1 seq=1 |  _ 数据 段 > seq=1449 | 数据 段 3 seq=2897 | 
| 


图 6 





图 5 的 Wireshark 截 屏 也 显示 了 相同 的 情况 ，51 号 包 的 Seq=3681， 
Len=1448， 所 以 52 号 包 的 Seq=3681+1448=5129。 这 个 Seq 号 是 由 这 两 个 
包 的 发 送 方 ， 也 就 是 10.32.106.159 维 护 的 。 

由 于 TCP 古 双 同 的 ， 在 一 个 连接 中 双方 都 可 以 是 发 送 方 ， 所 以 各 目 
维护 了 一 个 Seq 写 。53 写 包 和 和 56 号 包 的 Seq 写 是 10.32.106.62 维 护 的 ， 由 
于 53 写 包 的 Seq=885，Len=0， 有 所 以 56 号 包 的 Seq=885+0=885。 

Len: 访 数 据 段 的 长 度 ， 如 图 5 中 的 Len=1448， 注 意 这 个 长 度 不 包括 
TCP 头 。 图 5 中 虽然 10.32.106.62 及 出 的 两 个 包 Len=0， 但 其 实 是 有 TCP 头 
的 。 头 部 本 喘 携 市 的 信息 很 多 ， 所 以 不 要 以 为 Len=0 驶 没 意 义 。 


Ack: 确认 号 ， 如 图 5 中 的 Ack 王 6577， 接 收 方向 发 送 方 确认 已 经 收 
到 了 哪些 字 节 。 

比如 甲 发 送 了 “Seg: x Len: y” 的 数据 段 给 乙 ， 那 乙 回 复 的 确认 号 整 
古 x+y， 这 意味 着 它 收 到 了 x+y 之 前 的 所 有 字 节 。 同 样 以 图 5 为 例 ，52 与 
包 的 Seq=5129， Len=1448， 上 所 以 来 和 目 接收 方 的 53 号 包 的 
Ack=5129+1448=6577， 表 示 收 到 了 6577 之 前 的 所 有 字 节 。 理 论 上 ， 接 
收 方 回复 的 Ack 号 恰好 残 等 于 发 送 方 的 下 一 个 Seq 号 ， 所 以 我 们 可 以 看 到 
54 号 包 的 Seq 也 等 于 5129+1448=6577。 

你 也 许 想 问 51 号 包 为 什么 没有 对 应 的 确认 包 呢 ?其 实 53 写 包 人 确认 
6577 的 时 候 ， 表 示 序 号 小 于 6577 的 所 有 字 节 都 收 到 了 ， 相 当 于 把 51 号 发 
运 的 字 节 也 一 并 确认 了 ， 也 就 是 说 TCP 的 确认 古 可 以 累积 的 。 

在 一 个 TCP 连 接 中 ， 因 为 双方 都 可 以 是 接收 方 ， 所 以 它们 各 目 维 护 
自己 的 Ack 号 。 本 例 中 10.32.106.62 没 有 发 送 任何 字 节 ， 所 以 
10.32.106.159 肥 出 的 Ack 扎 一 直 不 变 。 

你 可 能 要 花 些 心思 来 学 习 这 几 个 参数 ， 不 过 付出 是 值得 的 。 因 为 一 
旦 理解 了 它们 ， 接 下 来 学 习 TCP 的 特性 束 会 水 到 渠 成 。 比 如 当 包 乱 序 
时 ， 接 收 方 只 要 根据 $eq 号 从 小 到 大 重新 排 好 吏 行 了 ， 这 样 殉 体 证 了 
TCP 的 有 序 性 。 再 比如 有 包 丢 失 时 ， 接 收 方 通过 前 一 个 Sedq+Len 的 值 与 
下 一 个 Seq 的 甜 ， 束 能 判断 缺 了 哪些 包 ， 这 保证 了 TCP 的 可 靠 性 。 我 们 
举 个 例子 来 说 明 这 两 种 状况 ， 以 下 3 个 包 到 达 了 接收 方 ( 见 表 1) : 


表 1 





第 一 个 包 | 第 二 个 包 第 三 个 包 


9ed:301 Len:100 9ed:101 Len:100 Sed:401 Len:100 


很 明 最 ， 从 Seq 守 可 见 它 们 的 顺序 古 乱 的 。 重 狐 排 序 之 后 应 访 是 下 
面 这 个 样子 〈 见 表 2) : 


表 2 





Seq:101 Len:100 | Seq:301 Len:100 Seq:401 Len:100 


排序 完 之 后 还 是 有 问题 。 第 一 个 包 的 Seqt+Len=101+100=201， 意 味 
看 下 一 个 包 本 应 该 是 Seq:201， 而 不 是 实际 收 到 的 Seq:301。 由 此 接收 方 
可 以 推 新 ,“Seq:201” 这 个 包 可 能 已 经 丢失 了 。 于 是 它 回 复 Ack:201 给 发 
送 方 ， 提 醒 它 重 传 Seq:201。 

除了 这 几 个 参数 ，TCP 头 还 附 这 了 很 多 标志 位 ， 在 Wireshark 上 经 名 
可 以 看 到 下 面 这 些 


。 SYN: 携 市 这 个 标志 的 包 表 示 正 在 有 友 起 连接 请 求 。 因 为 连接 是 双 
加 的 ， 所 以 建立 连接 时 ， 双 方 都 要 发 一 个 SYN。 


。 FIN: 携带 这 个 标志 的 包 表 示 正 在 请 求 终 止 连接 。 因 为 连接 是 双 
问 的 ， 所 以 彻底 关闭 一 个 连接 时 ， 双 方 都 要 发 一 个 FIN。 


。RST: 用 于 重 置 一 个 泥 乱 的 连接 ， 或 者 拒绝 一 个 无 效 的 请 求 。 


如 图 7 所 示 ， 我 故意 尝试 连接 一 台 Linux 服 务 器 的 445 并 口 (一 般 只 
有 Windows 上 才 开 局 这 个 端 口 ，Wireshark 上 把 该 端口 显示 为 microsoft- 
ds) ， 结 果 殉 被 RST 了 。 当 然 这 个 实验 属于 “没事 找 抽 型 >”， 实 际 环境 中 
的 RST 往 往 意 味 着 大 问题 。 如 果 你 在 Wireshark 中 看 到 一 个 RST 包 ， 务 必 
际 信 限 丽 分 什 。 


Des Ep Timme Protocal [rnfo 
了 本: 3 | 总- 5 后 : 竺 色 Tip | 至 1 





了 解 了 这 些 参数 和 标志 位 ， 我 们 就 可 以 学 习 TCP 是 如 何 官 理 连接 的 
J 图 8 十 一 个 标准 的 连接 建立 过 程 : 
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图 8 


这 三 个 包 就 是 传说 中 的 “三 次 握手 ”"。 事 实 上 ， 握 手 时 Seq 写 并 不 是 
从 0 开始 的 。 我 们 之 所 以 在 Wireshark 上 看 到 Seq=0， 是 因为 Wireshark 启 
用 了 Relative Sequence Number。 如 果 你 想 关 闭 这 个 功能 ， 可 以 在 Edit-- 
>Preferences-->protocols-->TCP 里 议 置 。 


握手 过 程 可 以 用 图 9 来 表示 。 
客户 喘 


服务 器 客户 端 服务 器 





局 用 Relative Sequence Number 关闭 Relative Sequence Number 


图 9 


如 果 用 文字 来 表达 ， 过 程 束 是 这 样 的 。 

客户 端 : “我 能 跟 你 建立 连接 吗 ? 我 的 初始 发 送 序号 是 X。 如 果 你 答 
应 束 Ack=X+1。” 

服务 器 :“ 收 到 啤 ，Ack=X+1。 我 也 想 跟 你 建立 连接 。 我 的 初始 发 
大 序 号 是 Y， 你 如 果 管 应 连接 束 Ack 二 Yt+1。” 

客户 端 : “ 收 到 啦 ，Ack 王 Y+1。” 

为 什么 要 用 三 个 包 来 建立 连接 呢 ， 用 两 个 不 可 以 吗 ? 其 实 也 是 可 以 
的 ， 但 两 个 不 够 可 靠 。 我 们 可 以 设想 一 个 情况 来 说 明 这 个 问题 : 某 个 网 
络 有 多 条 路 径 ， 客 户 疹 请 求 建立 连接 的 第 一 个 包 跑 到 一 条 延迟 严重 的 路 
径 上 了 ， 所 以 迟 迟 没有 到 达 服 务 器 。 因 此 ， 客 户 端 只 能 当 作 这 个 请 求 丢 
失 了 ， 不 得 不 再 请 求 一 次 。 由 于 第 二 个 请 求 走 了 正确 的 路 径 ， 所 以 很 快 
完成 工作 并 关闭 了 连接 。 对 于 各 户 闪 来 说 ， 事 情 似乎 已 经 结束 了 。 没 想 
到 它 的 第 一 个 请 求 经 过 跋山涉水 ， 还 是 到 达 了 服务 器 。 如 图 10 所 示 ， 服 
务 右 并 不 知道 这 是 一 个 旧 的 无 效 请 求 ， 所 以 按照 惯例 回复 了 。 假 如 TCP 
只 要 求 两 次 握手 ， 服 务 器 上 就 这 样 建 并 了 一 个 无 效 的 连接 。 而 在 三 次 握 


手 的 机 制 下 ， 客 户 器 收 a 到 服务 此 的 回复 时 ， 知 道 这 个 连接 不 是 它 想 要 
的 ， 所 以 束 友 一 个 拒绝 包 。 服 务 硕 收 到 这 个 包 后 ， 也 放 径 这 个 连接 。 
客户 端 \ 服务 器 


Seq=y'Ackxr- 









Reject 





当 连 搂 证 求 是 旧 的 无 戏 包 时 


图 10 


经 过 三 次 握手 之 后 ， 连 接 陀 建立 了 。 双 方 可 以 利用 Seq、Ack 和 Len 
等 参数 互 传 效 据 。 传 完 之 后 如 何 断 开 连 接 呢 ? 网 11 殴 是 ITCP 断 开 连 接 
的 “四 次 挥手 ?过程 。 


局 ， WEE inakio protozel ]nfa 






客户 端 : “我 希望 断 开 连接 〈 请 注意 FIN 标 志 ) 。” 

服务 器 : “知道 了 ， 上 断 开 吧 。” 

服务 器 : “我 这 边 的 连接 也 想 断 开 【〈 请 注意 FIN 标 志 ) 。” 客 户 
靖 : “知道 了 了 ， 肠 开 吧 。” 

惑 这 样 ， 双 方 都 天 财 了 连接 。 其 实用 四 次 挥手 来 断 开 连接 也 不 完全 
可 靠 ， 但 世界 上 不 存在 100% 可 靠 的 通信 机 制 。 假 如 对 这 个 话题 感 兴 
趣 ， 可 以 研究 一 下 著名 的 “两 军 问 题 ?， 维 基 百 科 上 有 详细 介绍 ， 地 址 为 


http://en.wikipedia.org/wiki/ 工 wo_Generals Problem. 

工作 中 如 果 磁 到 汤 开 连接 的 问题 ， 可 以 使 用 netstat 命 令 来 排 合 ， 无 
论 在 Windows 还 是 Linux 上 ， 这 个 命令 虱 能 把 当前 的 连接 状态 显示 出 
来 。 不 过 阁 话音 襄 ， 最 推荐 的 工具 还 是 Wireshark。 


亿 违 员 的 工作 宋 略 一 一 ITCP 和 窗口 


假如 你 是 一 位 勤劳 的 快递 员 ， 要 送 100 个 包 嘻 到 某 公 司 去 ， 怎 样 送 
贷 才 科 学 ? 

最 简单 的 方式 是 每 次 送 1 个 ， 总 共 跑 100 趟 。 当 然 这 也 是 最 慢 的 方 
式 ， 因 为 往返 次 数 越 多 ， 消 耗 的 时 间 就 越 长 。 除 了 需要 减肥 的 快递 员 ， 
一 般 人 不 会 选择 这 种 方式 。 最 快 的 方式 应 该 是 一 口气 送 100 个 ， 这 样 只 
要 跑 一 趟 就 够 了 。 可 惜 现实 没有 这 么 美好 ， 往 往 存 在 各 种 制约 因素 : 公 
司 狭 小 的 前 台 只 容 得 下 20 个 包 了 时， 要 等 签收 完了 才能 接着 送 ; 更 令 人 和 邦 
问 的 是 ， 电瓶车 只 能 装 10 个 包 诸 。 综 合 这 两 个 因素 ， 不 难 推出 电瓶 车 的 
运力 是 效率 瓶 氏 ， 而 前 合 的 空间 则 不 构成 影 啊 。 

快递 送 货 的 策略 非常 浅显 ， 几 乎 人 人 可 以 理解 ， 而 TCP 传 输 大 块 数 
据 的 策略 却 很 少 人 异 。 事 实 上 这 两 者 的 原理 是 相似 的 。 

TCP 显 然 不 用 电瓶 车 送 包 ， 但 它 也 有 “往返 ”的 需要 。 因 为 发 包 之 后 
并 不 知道 对 方 能 否 收 到 ， 要 一 直 等 到 确认 包 到 达 ， 这 样 就 花费 了 一 个 往 
返 时 间 。 假 如 每 肥 一 个 包 就 停 下 来 等 确认 ， 一 个 往返 时 间 里 就 只 能 传 一 
个 包 ， 这 样 的 传输 效率 太 低 了 。 最 快 的 方式 应 该 是 一 口气 把 所 有 人 包 发 出 
去 ， 然 后 一 起 确认 。 但 现实 中 也 存在 一 些 限 制 : 接收 方 的 缓存 (接收 窗 
口 ) 可 能 一 下 子 接 党 不 了 这 么 多 数据 ;网络 的 市 宽 也 不 一 定 足 够 大 ， 一 
口气 发 太 多 会 导致 丢 包 事故 。 所 以 ， 友 送 方 要 知道 接收 方 的 接收 窗口 和 
网 络 这 两 个 限制 因素 中 哪 一 个 更 严格 ， 然 后 在 其 限制 范围 内 尽 可 能 多 肥 
包 。 这 个 一 口气 能 发 送 的 数据 量 束 是 传说 中 的 TCP 发 送 窗口 。 

发 送 窗 口 对 性 能 的 影响 有 多 大 ? 一 图 胜 千 言 ， 图 1 显示 了 了 发送 窗口 
为 1 个 MSS【〔 即 每 个 TCP 包 所 能 携 市 的 最 大 数据 量 ) 和 2 个 MSS 时 的 天 
别 。 在 相同 的 往返 时 间 里 ， 右 边 比 左边 多 发 了 两 倍 的 数据 量 。 而 在 真实 
环境 中 ， 发 送 窗 口 常 常 可 以 达到 数 十 个 MSS。 





图 1 


图 2 束 古 在 真实 环境 中 抓 的 包 ， 抓 包 时 服务 右 10.32.106.73 正 往 客 户 
山 10.32.106.103 发 数据 。 由 于 服务 器 的 发 送 窗口 很 大 ， 所 以 收 到 读 请 求 
之 后 ， 它 在 没有 客户 并 确认 的 情况 下 连续 友 了 10 个 包 。 
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图 2 


接着 我 把 各 户 端 的 接收 窗口 强制 成 2920， 相 当 于 两 个 TCP 包 能 携 市 
的 数据 量 。 从 图 3 中 可 以 看 到 客户 端 通过 “win=2920” 把 自己 的 接收 窗口 
ER 因此 服务 器 把 发 送 窗 口 限制 为 2920， 每 发 两 个 包 就 停 下 来 

待 客户 端的 确认 。 同 样 一 个 14215 字 节 的 读 操 作 ， 图 2 只 用 1 个 往返 时 

nds 而 图 3 则 用 了 6 个 。 
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图 3 


为 了 更 好 地 说 明 这 个 过 程 ， 我 把 27 号 包 到 32 号 包 用 对 话 的 形式 表示 


出 来 ， 括 号 内 的 文字 为 我 添加 的 注 酸 。 


J 


27 写 包 : 

和 宪 己 并; “当前 我 的 接收 窗口 是 2920。” 

28 气 包 : 

服务 器 :“ (好 ， 那 我 的 发 送 窗 口 就 定 为 2920。) 先 给 你 1460 字 
29 气 包 : 


服务 器 : “再 给 你 1460 字 节 。 哎呀 ! 我 的 发 送 窗 口 2920 用 完了 ， 


不 能 再 发 了 。) ”30 号 包 : 
客户 端 : “你 发 过 来 的 2920 字 节 已 经 处 理 完 毕 ， 所 以 现在 我 的 接收 
窗口 又 恢复 到 2920。” 
31 写 包 : 
服务 器 : “(好 ， 那 我 再 把 发 送 窗口 定 为 2920。) 给 你 一 个 1460 字 
32 号 包 : 


了 


服务 器 :“ 再 给 你 1460 字 节 。 (哎呀 ! 我 的 发 送 窗口 2920 又 用 完 
不 能 再 发 了 。) ” 
你 也 许 有 个 疑问 ， 本 文 的 开头 不 是 说 有 两 个 限制 因素 吗 ? 这 个 例子 


只 所 到 了 接收 窗口 对 友 壕 窗口 的 限制 ， 那 网 络 的 影响 呢 ? 由 于 网 络 的 影 
啊 方 式 非常 复杂 ， 所 以 本 文 暂 时 跳 过 。 下 一 篇 文章 将 作 详 细 介 绍 。 


不 知道 出 于 何 种 原因 ，TCP 及 大 窗口 的 概念 被 广泛 误解 ， 比 如 ， 很 


多 人 会 把 接收 窗口 误 认 为 发 送 窗口 。 我 经 常 想 在 论坛 上 回答 相关 提问 ， 
却 不 知 志 该 从 何 管 起 ， 因 为 有 些 近 问 本 里 丈 基 于 错误 的 概 众 。 下 面 古 一 
些 经 常 出 现 的 问题 。 


1. 如 图 4 的 底部 所 示 ， 每 个 包 的 TCP 层 都 含有 “window size:”( 也 就 是 


win=) 的 信息 。 这 个 值 表示 友 壕 窗口 的 大 小 吗 ? 
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因 Frame 了 3 129 EE on wire (1032 bits), 129 bytes captured (032 bits) 
EE Ethernet II, Sre!: Wmare al:58:41 (O050:56:al:59:41), Dst: Clariion 3f:Od:07 C00:60:16:3f:D0d:07) 

3 TINTermner PFOLoOcol, SPes 40.32. 06.10% 10 32:106.103), DSTE: 10.32. 106.73 Co. 32.106.73) 

src Part: laacoposserver (2212), Dst port: microsoft-ds (443), Seq: 1850, Ack 





E Transmission Control protocol, 
Source port: leecoposserver (2212) 
Destination port: microsoft-ds C445) 
[stream 1ndex: 0] 
sequence number: 
[Next sequence number: 
Acknowledgement number: 


1850 ‘relative sequence number) 

1913 Crelative sequence nmurmbery] 
工 癌 而 号 rrelacive ack numbery 
Haader length: 32 bytes 

Flags: OxlB (PsH, ACK) 
WINndow 51reE: 4093 





图 4 


这 不 是 发 送 窗 口 ， 而 是 在 同 对 方 声 明 上 自己 的 接收 窗口 。 在 此 例子 
中 ，10.32.106.103 癌 10.32.106.73 声 明 自 己 的 接收 窗口 是 64093 字 节 。 
10.32.106.73 收 到 之 后 ， 就 会 把 自己 的 发 送 窗口 限制 在 64093 字 节 之 内 。 
很 多 教科 书 上 提 到 的 滑动 窗口 机 制 ， 说 的 就 是 这 两 个 窗口 的 关系 ， 本 文 
束 不 再 次 述 了 。 

假如 接收 方 处理 数 据 的 速度 跟 不 上 接收 数据 的 速度 ， 绥 存 就 会 被 占 
满 ， 从 而 导致 接收 窗口 为 0。 如 图 5 的 Wireshark 和 截屏 所 示 ，89.0.0.85 持 续 
向 89.0.0.210 声 明 自 己 的 接收 窗口 是 win=0， 所 以 89.0.0.210 的 发 送 窗口 就 
锌 限制 为 0%， 意 味 大 那 段 时 间 发 不 出 数据 。 


Mie. HT Destination 下 me Protocol Info 

290065 B93.0.0.85 93.0.0.210 2013-08-08 21:10:55.203550 TOP [TCP ZeroWwindow] srdp » ndmp [ACKI] Seq=70777 ACkK=33069928 Win=0 
29052 BE9.0.0.85 B90,0.210 2013-08-08 21:10:55,.244665 TOP [TCP Zerowindow] srdp > ndmp [ACK] Seq-7 O777 ACkK=33129788 Win=0 
29059 BS-.0-0-.85 B90.0.210 2013-08-08 21:10:55.693795t TCcP [TCP Zerowindow] srdp > ndmp [ACK] Seq=70777 ACck=3313W63 Win=0 
29105 BS.0.0-.85 89.0.0.210 2013-08-08 21:10:55.71469t TCP [TOP ZercWindow] srFrdp S ndmp [ACHI] Seq="Or7?? ACck=33195323 Win=0 
20113 BI.0.0.85 90.0.210 2013-08-08 24:10:56.493590 TCcpP [Tce ZeroWindow] strdp * ndmp [ACkK] Seq=7OF7? Ack=33200998 Win=0 
29159 BS.0.0.85 89.0.0.210 2013-08-08 21;10:56.733638 TOP [TOF ZercoWindos] srdp 2 ndmp [ACk] Seq=70777 Ack=33260858 Win=0 
29166 Eo.0.0.85 90.0210 2013-08-08 21:10:56.914804¢ TCP [TEP Zerowindow] srdp > ndmp [ACE] Sedqer O77? ACk=332606533 Wirn=0 


图 5 


2. 我 如 何在 包 里 看 出 友 壕 禄 口 的 大 小 呢 ? 


很 遗憾 ， 没 有 人 简 早 的 方法 ， 有 了 时候 甚至 完全 没有 办 法 。 因 为 ， 当 友 
送 窗口 是 由 接收 窗口 决定 的 时 候 ， 我 们 还 可 以 通过 “window size:” 的 值 来 
判断 。 而 当 它 由 网 络 因 丢 决定 的 时 候 ， 事 情 束 会 变 得 非常 复杂 〈 下 篇 文 


章 将 会 详细 介绍 ) 。 大 多 数 时 候 ， 我 们 甚至 不 确定 哪个 因素 在 起 作 
用 ， 只 能 大 概 推 理 。 以 图 5 为 例 ， 接 收 方志 明 它 的 接收 窗口 等 于 0， 那 接 
收 窗 口 衣 定 起 了 限制 作用 《因为 不 可 能 再 小 了 ) ， 因 此 可 以 大 胆 地 判断 
发 送 窗 口 就 是 90。 再 回顾 本 文 开头 10.32.106.73 向 10.32.106.103 传 数据 的 
两 个 例子 。 第 一 个 例子 中 ， 我 们 只 能 推理 出 10.32.106.73 的 发 送 窗口 不 
小 于 那 10 个 包 (39~48 写 ) 携 和 之 的 数据 总 和 ， 但 具体 能 达到 多 少 却 不 得 
而 知 ， 因 为 窗口 还 没 用 完 时 读 操 作 束 完成 了 。 第 二 个 例子 比较 容易 分 
析 ， 因 为 传 了 两 个 包 就 停 下 来 等 确认 ， 所 以 友 送 窗口 是 那 两 个 包 携 这 的 
数据 量 2920。 


UL 


3. 发 送 窗口 和 MSS 有 什么 关系 ? 


发 送 窗 口 决 定 了 一 口气 能 发 多 少 字 节 ， 而 MSS 决 定 了 这 些 字 廊 要 分 
多 少 个 包 发 完 。 举 个 例子 ， 在 发 送 窗口 为 16000 字 节 的 情况 下 ， 如 果 
MSS 是 1000 字 节 ， 那 就 需要 发 送 16000/1000=16 个 包 ; 而 如 果 MSS 等 
8000， 那 要 发 送 的 包 数 束 是 16000/8000=2 了 。 


4. 太太 方 在 一 个 窗口 里 及 出 n 个 包 ， 是 不 十 束 能 收 a 到 n 个 确认 包 ? 


不 一 定 ， 确 认 包 一 般 会 少 一 些 。 由 于 TCP 可 以 累积 起 来 确认 ， 所 以 
当 收 到 多 个 包 的 时 候 ， 只 需要 确认 最 后 一 个 束 可 以 了 。 比 如 本 文中 
10.32.106.73 同 10.32.106.103 传 数据 的 第 一 个 例子 中 ， 客 性 新 用 一 个 包 
( 包 号 49) 确认 了 它 收 到 的 10 个 包 (39~48 写 包 ) 。 


5. 经 种 昕 说 “ITCP Window Scale” 这 个 概念 ， 它 究竟 和 接收 窗口 有 何 
天 系 ? 


nats 全 世界 的 网 络 市 时 部 很 小 ， 所 以 最 大 接收 
和 窗口 密 定 义 成 65535 字 记 。 随 看 便 件 的 半 命 性 进步 ，65535 季 节 已 经 成 为 
性 能 诅 代 了， 怎么 么 样 才 能 扩 展 呢 ? TCP 头 中 只 给 接收 窗口 值 留 了 16 bit， 
肯定 是 无 法 突破 65535 (216 -1) 的 。 

1992 年 的 RFC 1323 中 提出 了 一 个 解雇 方案 ， 赋 是 在 三 次 握手 时 ， 把 
目 己 的 Window Scale 信息 告知 对 方 。 由 于 Window Scale 放 在 TCP 头 之 外 
的 Options 中 ， 所 以 不 需要 修改 TCP 头 的 设计 。Window Scale 的 作用 是 问 
对 方 声明 一 个 Shift count， 我 们 把 它 作为 2 的 指数 ， 再 乘 以 TCP 头 中 定义 
的 接收 窗口 ， 束 得 到 真正 的 TCP 接收 窗口 了 。 

以 图 6 为 例 ， 从 底部 可 以 看 到 10.32.106.159 告 诉 10.32.106.103 说 它 的 
Shift count 是 5。2? 等 于 32， 这 就 意味 着 以 后 10.32.106.159 声 明 的 接收 窗 
口 要 乘 以 32 才 征 呐 正 的 接收 窗口 但。 
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图 6 


接 下 来 我 们 再 看 图 7 中 的 3 号 包 。10.32.106.159 声 明 它 的 接收 窗口 
为 “Window size value: 183”，183 乘 以 32 得 到 5856， 上 所 以 Wireshark 吏 显 
示 出 “Win=5856” 了 。 要 注意 Wireshark 是 根据 Shift count 计 算出 这 个 结 
的 ， 如 果 抓 包 时 没有 抓 到 三 次 握手 ，Wireshark 就 不 知道 该 如 何 计算 ， 所 
以 我 们 有 时 候 会 很 更 名 地 看 到 一 些 极 小 的 接收 窗口 值 。 还 有 些 时 候 古 防 
火 墙 识别 不 了 Window Scale， 因 此 对 方 无 法 获得 Shift count， 最 终 导 有 到 


严重 的 性 能 问题 
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图 7 


单传 的 讲 完 


浆 读 本 文 之 前 ， 务 必 保 证 心情 愉快 ， 以 免 产 生 撕 书 的 冲动 ; 同时 准 
备 浓 缩 咖 啡 一 杯 ， 防 止 看 到 一 半 睡 着 了 。 因 为 这 部 分 内 容 是 TCP 中 最 村 
燥 的 ， 但 也 是 最 有 价值 的 。 

前 文 说 到 ， 发 送 方 的 发 送 窗 口 是 受 接收 方 的 接收 窗口 和 网 络 影响 
的 ， 其 中 限制 得 更 严 的 因 系 就 起 决定 作用 。 接 收 窗口 的 影响 方式 非常 人 简 
捍 ， 只 要 在 包 里 用 “Win=” 告 知 发 送 方 束 可 以 了 。 而 网 络 的 影响 方式 非常 
复杂 ， 所 以 留 到 本 文 专门 介绍 。 

网 络 之 所 以 能 限制 发 送 窗口 ， 是 因为 它 一 口气 收 到 太 多 数据 时 就 会 
拥塞 。 拥 塞 的 结果 是 丢 包 ， 这 是 发 送 方 最 鼠 悦 的 。 能 导致 网 络 拥塞 的 数 
据 量 称 为 拥塞 点 ， 发 送 方 当然 希望 把 发 送 窗 口 控制 在 拥塞 点 以 下 ， 这 样 
瓯 能 避免 拥 玫 了 。 但 问题 是 连 网 络 设备 都 不 知道 和 目 己 的 拥塞 点 ， 即 便 知 
道 了 也 无 法 通知 发 送 方 。 这 种 情况 下 及 送 方 如 何 避 免 触 储 拥 短 点 呢 ? 
方案 1. 发 送 方 知道 自己 的 网 卡 市 完 ， 能 否 以 此 推测 该 连接 的 拥 夫 点 ? 

不 能 。 因 为 发 送 方 和 接收 方 之 间 还 有 路 由 器 和 交换 机 ， 其 中 任何 一 
个 设备 都 可 能 是 瓶 狐 。 比 如 友 送 方 的 网 卡 是 10Gbiys， 而 接收 方 只 有 
1Gbit/s， 如 果 近 上 照 10Gbit/s 计 算 肯 定 会 出 问题 。 束 算 用 1Gbit/s 来 计算 也 
没有 意义 ， 因 为 网 络 市 宽 是 多 个 连接 共享 的 ， 其 他 连接 也 会 占用 一 定 市 


- 


= 


万 案 2. 逐次 增加 发 送 量 ， 直 到 网 络 发 生 拥 塞 ， 这 样 得 到 的 最 大 发 送 量 
能 定 为 该 连接 的 拥 秦 点 吗 ? 

这 是 一 个 好 办 法 ， 但 没 这 么 简单 。 网 络 就 像 马 路 一 样 ， 有 的 时 候 很 
堵 ， 其 他 时 候 却 很 空 〈 北 京 的 蕊 路 除外 ， 。 所 以 拥 窗 点 古 一 个 随时 改变 
的 动态 值 ， 妆 前 试探 出 的 拥 窗 点 不 能 代表 未 来 。 
难道 融 没 有 一 个 完 天 的 方案 吗 ? 很 遗 眉 ， 还 真 的 没有 。 目 网 络 诞生 


数 十 年 以 “来 ， 清 现 过 无 数 绝顶 聪明 的 工程 师 ， 束 是 没有 一 个 人 能 解雇 
这 个 问题 。 幸 好 经 过 几 代 人 的 努力 ， 总 算 有 了 一 个 最 靠 谱 的 策略 。 这 个 
集 略 就 是 在 发 送 方 维 护 一 个 虚拟 的 拥 替 窗口 ， 并 利用 各 种 算法 使 它 尽 可 
能 接近 真实 的 拥堵 点 。 网 络 对 发 送 窗口 的 限制 ， 就 是 通过 拥塞 窗口 实现 
的 。 下 面 我 们 束 来 看 看 拥 天 窗口 如 何 维护 。 

1. 连接 刚刚 建立 的 时 候 ， 发 送 方 对 网 络 状况 一 无 所 知 。 如 果 一 口 
气 友 太 多 数据 束 可 能 遭遇 拥塞 ， 所 以 友 送 方 把 拥 才 窗口 的 初始 值 定 得 很 
小 。REFC 的 建议 是 2 个 、3 个 或 者 4 个 MSS， 有 具体 视 MSS 的 大 小 而 定 。 

2. 如 果 发 出 去 的 包 都 得 到 确认 ， 表 明 还 没有 达到 拥 罕 点 ， 可 以 增 
大 拥塞 窗口 。 由 于 这 个 阶段 发 生 拥 塞 的 概率 很 低 ， 所 以 增 速 应 该 快 一 
些 。RFC 建 议 的 算法 是 每 收 到 n 个 确认 ， 可 以 把 拥 寺 窗口 增加 n 个 MSS 。 
比如 发 了 2 个 包 之 后 收 到 2 个 确认 ， 拥 窄 窗口 束 增 大 到 2+2=4， 接 下 来 古 
4+4=8， 8+8=16..….. 这 个 过 程 的 增 速 很 快 ， 但 是 由 于 基数 低 ， 传 输 速 虚 
还 是 比较 慢 的 ， 所 以 被 称 为 慢 局 动 过 程 。 

3. 慢 局 动 过 程 持续 一 段 时 间 后 ， 拥 窄 窗 口 达 到 一 个 较 大 的 值 。 这 
时 候 传 输 速度 比较 快 ， 触 辜 拥 考点 的 概率 也 大 了 ， 上 所 以 不 能 继续 采用 翻 
倍 的 慢 启 动 算法 ， 而 是 要 缓慢 一 点 。REC 建 议 的 算法 是 在 每 个 往返 时 间 
增加 1 个 MSS。 比 如 发 了 16 个 MSS 之 后 全 部 被 确认 了 ， 拥 塞 窗口 就 增加 
到 16+1=17 个 MSS， 再 接 下 去 是 17+1=18， 18+1=19...... 这 个 过 程 称 为 拥 
窜 避 人 免 。 从 慢 局 动 过 渡 到 拥 窟 避免 的 临界 窗口 值 很 有 讲究 。 如 果 之 前 友 
生 过 拥塞 ， 就 把 该 拥塞 点 作为 参考 依据 。 如 果 从 来 没有 拥 窟 过 就 可 以 取 
相对 较 大 的 值 ， 比 如 和 最 大 接收 窗口 相等 。 全 过 程 可 以 用 图 1 表示 。 
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图 1 


无 论 是 慢 启 动 还 是 拥塞 避免 阶段 ， 拥 塞 窗口 都 在 逐渐 增 大 ， 理 论 上 
一 定时 间 之 后 总 会 碰 到 拥塞 点 的 。 那 为 什么 我 们 平时 感觉 不 到 拥塞 呢 ? 
原因 有 很 多 ， 如 下 所 示 。 


操作 系统 中 对 接收 窗口 的 最 大 设 定 多 年 没有 改动 ， 比 如 Windows 
在 不 局 用 “TCP ” window ”scale ”option” 的 情况 下 ， 最 大 接收 窗口 只 有 
64KB。 而 近年 来 网 络 有 了 长 足 进 步 ， 很 多 环境 的 拥 帮 点 远 在 64KB 以 
上 。 也 残 是 说 发 大 窗口 已 经 被 限制 在 64KB 了 了， 永远 触 碰 不 到 拥堵 点 。 


。 很 多 应 用 场景 是 交互 陈 的 小 数据 ， 比 如 网 络 聊天 ， 所 以 也 不 会 有 
拥 财 的 可 能 。 


。 在 传输 数据 的 时 候 如 果 采 用 同步 方式 ， 可 能 需要 的 窗口 非常 小 。 
比如 采用 了 同步 方式 的 NFS 写 操作 ， 每 友 一 个 写 请 求 束 停 下 来 等 回复 ， 
而 一 个 写 请 求 可 能 只 有 4KB。 


。 即便 伪 尔 及 生 拥 墅 ， 持 续 时 间 也 不 足以 长 到 能 感受 出 来 ， 除 非 抓 


了 网 络 包 进行 数据 分 机、 对 比 。 


拥 考 之 后 会 及 生 什 么 情况 呢 ? 对 友 送 方 来 说 ， 驳 是 发 出 去 的 包 不 像 
往 币 一 样 得 到 确认 了 。 不 过 收 不 到 确认 也 可 能 是 网 络 延迟 所 致 ， 所 以 及 
送 方 决 定 等 待 一 小 段 时 间 后 再 判断 。 假 如 迟 迟 收 不 到 ， 就 认定 包 已 经 丢 
失 ， 只 能 重 传 了 了。 这 个 过 程 称 为 超时 重 传 。 如 图 2 所 示 ， 从 发 出 原始 包 
到 重 传 该 包 的 这 段 时 间 称 为 RTO。RTO 
鲜 口 三 4 MSS 





二 





发 送 方 接收 方 


图 2 


的 取 值 山 有 讲究 ， 理 论 上 需要 几 个 公式 计算 出 来 。 根 据 多 一 道 公 式 
束 会 于 失 一 半 计 者 的 原理 ， 本 文 将 对 此 只 衬 不 提 ， 我 们 只 需要 知道 存在 
这 么 一 段 时 间 束 可 以 了 。 有 些 操作 系统 上 提供 了 调 广 RTO 大 小 的 参数 。 

单传 之 后 的 拥 紧 窗口 是 耕 需 要 调整 呢 ? 非常 有 必要 ， 为 了 不 给 刚 友 
生 拥 窗 的 网 络 雪 上 加 箱 ，RFC 建 议 把 拥 窟 窗口 降 到 1 个 MSS， 然 后 再 次 
进入 慢 局 动 过 程 。 这 一 人 次 从 慢 局 动 过 六 到 拥 纤 避免 的 临界 窗口 值 束 有 参 
考 依据 了。Richard Stevens 在 《TCP/IP lllustrated》 中 把 临界 窗口 值 定 为 
上 次 友 生 拥堵 时 的 发 送 窗 口 的 一 半 。 而 RFC 5681 则 认为 应 该 是 发 生 拥 土 
时 没 补 确认 的 数据 量 的 112， 但 不 能 小 于 2 个 MSS。 比 如 说 及 了 19 个 包 出 
去 ， 但 只 有 前 3 个 包 收 到 确认 ， 和 那么 临界 窗口 值 束 和 梓 定 为 后 16 个 包 携 市 
的 数据 量 的 112。 我 没有 细 究 过 为 什么 Stevens 和 REFC 会 有 这 个 分 上 鉴 ， 不 
过 Stevens 是 在 1999 年 意外 去 世 的 ， 而 RFC 5681 和 直到 2009 才 发 布 ， 也 许 
是 Stevens 在 书 中 引用 了 更 早 版 本 的 RFC。 里 然 Stevens 是 我 最 豆 欢 有 的 技术 
作 和 家， 但 在 这 个 细 市 上 我 认为 RFC 5681 更 加 科学 。 

图 3 显示 了 发 生 超时 和 草 传 时 拥 窗 窗口 的 变化 。 





临界 窗口 值 


hs |EEa es 


时 间 


不 难 想 象 ， 超 时 重 传 对 传输 性 能 有 严重 影响 。 原 因 之 一 是 在 RIO 阶 

段 不 能 传 数 据 ， 相 当 于 浪费 了 一 段 时 间 ; 原因 之 二 是 拥 窗 窗口 的 急剧 减 

小 ， 相 当 于 接 下 来 ” 传 得 慢 多 了 。 以 我 的 个 人 经 验 ， 即 便 是 万 分 之 一 的 

超时 午 传 对 性 能 的 影响 也 非 同 小 可 。 我 们 在 Wireshark 中 如 何 检 查理 传情 

况 呢 ? 早 击 Analyze-->Expert Info Composite 玉 时 ， 束 能 在 Notes 标 签 看 到 
它们 了， 如 图 4 所 示 。 扣 开 + 写 还 能 看 到 上 其 体 是 哪些 包 友 生 了 草 传 。 
, Fed Fo | 
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图 4 


图 5 是 我 处 理 过 的 一 个 真实 案例 。 我 从 Notes 标 签 中 看 到 Seq 号 为 
1458613 的 包 及 生 了 超时 重 传 。 于 征用 该 Seq 志 过 小 出 原始 包 和 重 传 包 
《只 有 在 及 送 方 抓 的 包 才 看 得 到 原始 包 ) ， 友 现 RTO 葛 长 达 1 秒 钟 以 
上 。 这 对 性 能 的 影响 实在 太 大 了 ， 秆 好 这 人 台 及 送 方 提供 了 缩小 RITO 的 参 
数 ， 调 台 后 性 能 所 局 了 不 少 。 当 然 治标 义 治 本 的 方式 是 找 出 上 瓶颈 ， 彻 撒 


MA 人 、 
消除 重 传 。 
Filter trpseq == 1458613 | Expressian,, Glear Bpph 
Ks, Tirmie 号 让 he Dastination 
315b 2011-12-05 22:95:2d.204298 1]2B,.2d7,d9,.33 a29.2447,140. 34 
117F3 2011-12-08 22:09 29.308766 T28247,d449.33 ]2 和 9.24d47,140. 5 


图 5 


有 时 候 拥 豆 很 轻 徽 ， 只 有 少量 的 包 丢 失 。 还 有 些 偶然 因 妹 ， 比 如 校 
验 码 不 对 的 时 候 ， 会 导致 单个 丢 包 。 这 两 种 丢 包 症状 和 严重 拥 寺 时 不 一 
样 ， 因 为 后 续 有 包 能 正名 到 达 。 当 后 续 的 包 到 达 接 收 方 时 ， 接 收 方 会 友 
现 其 Seq 号 比 期 性 的 大 ， 所 以 它 每 收 到 一 个 包 吏 Ack 一 次 期 望 的 Seq 扎 ， 


以 此 提醒 发 送 方 重 传 。 当 发 送 方 收 到 3 个 或 以 上 重复 确认 (Dup Ack) 
时 ， 就 意识 到 相应 的 包 已 经委 上， 从 而 立即 重 传 它 。 这 个 过 程 称 为 快速 
重 传 。 之 所 以 称 为 快速 ， 是 因为 它 不 像 超时 重 传 一 样 需要 等 待 一 段 时 
间 。 

图 6 是 我 处 理 过 的 男 一 个 真实 案例 。 客 户 闹 发 送 了 1182、1184、 
1185、1187、1188 共 5 个 包 ， 其 中 1182 在 路 上 于 了 。 坟 好 到 达 服 务 器 的 
et, 所 以 客户 端 意识 到 丢 包 了 ， 于 是 在 包 号 
1337 快 速 来 晶 传 了 Seq= 991851。 


Ma, = Tee 

11B2 jr 114,130, 100 10. | "L140. 100 De -1 
T1184 T0114.130,100 J]0.114.140.100 2013- 可 -1 
1183 T9114.130,100 10.114. 140,.100 2013-01-l1 
1187 10,114,130,100 10,114 网 人 人 4 一 
11B8 10.,114,.130,100 10.114 虹 I-1 
L331 10,114.,140,100 10.114 3 是 D1-15 
] 3 ,14,149,100 10.114. 130. jh a Jo- 1 
133% 10,114,140,100 10,.114.130,100 DLL 了 -人 一 
1336 10,114,140,100 10.114, 130,100 Po 了 -二 一 
1337 L0114.130,100 T0214.140.300 2013-01-1 


al Info 
S421 Tp [continuation to #1929] 49454 > ddi-tep-1 [ack] seq Ack-il0 Win-32705 Len-t1d 
Oa00 Tep [Continuation to #1029] 49454 > ddi_tcp-1 [Mk] 5eq- 的 0340 Ack-11O5 win-32708 Lenl4d4 
DAD TOP [eontingation to #1029] 49454 > ddi-tcp-1 LACK] Se = 993909 ACE ri Win=32708 Le 了 日 


局: 加 名 六 病名 





为 什么 要 规定 兹 淅 3 个 呢 ? 这 是 因为 网 络 包 有 了 时 会 乱 序 ， 乱 序 的 包 
一 样 会 触发 重复 的 Ack， 但 是 为 了 乱 序 而 重 传 没 有 必要 。 由 于 一 般 乱 序 
的 距离 不 会 相差 太 大 ， 比 如 2 号 包 也 许 会 跑 到 4 号 包 后 面 ， 但 不 太 可 能 跑 
到 6 号 包 后 面 ， 所 以 限定 成 3 个 或 以 上 可 以 在 很 大 程度 上 避免 因 乱 序 而 触 
发 快速 重 传 。 如 图 7 中 的 左 图 所 示 ，2 号 包 的 丢失 凌 满 了 3 个 Dup Ack， 所 
以 触发 快速 重 传 。 而 右 图 的 2 号 包 跑 到 4 号 包 后 面 ， 却 因为 读 不 满 3 个 Ack 
而 没有 触发 快速 重 传 。 


竺 包 触 发 快速 重 传 乱 序 没有 触发 快速 重 传 


Tn 
= 





发 送 方 接收 方 发 送 方 接收 方 


图 7 


如 果 在 拥 考 避免 阶段 及 生 了 快速 重 传 ， 是 含 需要 像 用 生 超 时 重 传 一 
样 处 理 拥 考 窗 口 呢 ? 完全 没有 儿 要 一 既然 后 续 的 包 都 到 达 了 ， 说 明 网 络 
并 没有 严重 拥 考 ， 接 下 来 传 慢 点 束 可 以 了 。 对 此 Richard Stevens 和 RFC 
5681 的 建议 也 略 有 不 同 。 后 者 认为 临界 窗口 值 应 该 设 为 发生 拥 赛 时 还 没 
被 确认 的 数据 量 的 112《〈 但 不 能 小 于 2 个 MSS) 。 然 后 将 拥塞 窗口 设置 为 
临界 窗口 伪 加 3 个 MSS， 继 续 保 留 在 拥 紧 避免 阶段 。 这 个 过 程 称 为 快速 
恢复 ， 其 拥 畦 窗口 的 变化 大 概 可 以 用 图 8 表示 。 








第 一 次 拥塞 
的 临界 知 口 
第 二 议 拥 塞 
的 临界 窗口 
慢 启 动 


时 间 


不 知道 你 是 否 想 到 过 一 个 更 复杂 的 情况 一 很 多 时 候 丢 的 包 并 不 只 一 
个 。 比 如 图 9 中 2 号 和 3 号 包 丢 失 ， 但 1、4、5、6、7、8 号 都 到 达 了 接收 
方 并 触及 Ack 2。 对 于 及 送 方 来 说 ， 只 能 通过 Ack 2 知道 2 号 包 丢失 了 ， 
但 并 不 知道 还 有 哪些 包 丢 失 。 在 重 传 了 2 号 包 之 后 ， 接 下 来 应 该 传 哪 一 


个 呢 ? 





发 送 方 接收 方 


图 9 


方案 1. 不 管 三 七 二 十 一 ， 把 3、4、5、6、7、8 号 等 6 个 包 都 重 传 一 
裔 。 这 ”个 方案 简单 直接 ， 但 是 于 一 个 包 的 后 果 就 是 多 个 包 被 重 传 ， 效 
率 较 低 。 早 期 的 TCP 协 议 就 是 这 样 处 理 的 。 

方案 2. 接收 方 收 到 重 传 过 来 的 2 号 包 之 后 ， 会 回复 一 个 Ack 3， 


此 及 送 方 可 以 推理 出 3 亏 包 也 丢 了 ， 把 它 也 重 传 一 过 。 当 接收 方 收 到 重 
传 的 3 亏 包 之 后 ， 因 为 丢 包 的 是 秘 都 补 满 了 ， 上 所 以 回复 一 个 Ack 9， 从 此 
发 送 方 就 可 以 传 新 的 包 〈 包 号 9、10、11、..……… ) 了 。 这 个 方案 称 为 
NewReno， 由 RFC 2582 和 RFC 3782 定 义 。NewReno 在 本 例 中 看 上 去 很 
理想 ， 但 我 们 可 以 想见 当 丢 包 量 很 大 的 时 候 ， 束 需要 人 花 这 多 个 RTT 〈 往 
返 时 间 〉 来 重 传 所 有 丢失 的 包 。 

方案 3. 接收 方 在 Ack ”2 号 包 的 时 候 ， 顺 便 把 收 到 的 包 号 告诉 发 送 
方 。 所 以 这 些 Ack 包 应 该 是 这 样 的 : 

收 到 4 号 包 时 ， 告 诉 及 送 方 :“ 我 已 经 收 到 4 号 ， 请 给 我 2 写 。” 

收 到 5 号 包 时 ， 告 诉 发 送 方 : “我 已 经 收 到 4、5 扎 ， 请 给 我 2 号 。?” 

收 到 6 号 包 时 ， 告 诉 发 送 方 :“ 我 已 经 收 到 4、5、6 号 ， 请 给 我 2 


因此 发 送 方 对 丢 包 细 季 了 如 指 常 ， 在 快速 重 传 了 2 号 包 之 后 ， 它 可 
以 接着 传 3 写 ， 然 后 再 传 9 写 包 。 这 个 非常 直观 的 方案 称 为 SACK， 由 
RFC 2018 定 义 。 

图 10 是 在 真实 环境 中 抓 到 的 SACK 实 例 。 把 “SACK=992461- 
996175” 和 “Ack=991851” 两 个 条 件 综合 起 来 ， 发 送 方 就 知道 992461~ 


B29,139822 Tep ETcr Oup ACk 1331#1] ddt-tep-1 > 49484 [Ack] Seq-1105 ACk-991831 
Bi29.143r2B TEP [TEF Dup ACK 1331#2] ddi-tcp-1 3 494454 [ACK] Seq=110F. Ack=991831 
290,143728 TEP [Ter Dup AcK T3314#3] ddi-tcp-1 Fd EMCK] Seg=i105 Ack=99Bi85 
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图 10 
本 文 的 信息 量 有 点 大 ， 你 也 许 需 要 一 些 时 间 来 消化 它 。 有 些 部 分 一 


时 理解 不 了 也 无 妨 ， 即 便 只 记 住 本 文 导 出 的 几 个 结论 ， 在 工作 中 也 是 很 
有 用 的 。 


。 没有 拥 罕 时 ， 友 壕 窗口 越 大 ， 人 性 能 越 好 。 所 以 在 种 宽 没 有 限制 的 
条 件 下 ， 应 该 尽量 增 大 接收 窗口 ， 比 如 局 用 Scale Option (Windows 上 可 
参考 KB 224829) 。 


。 如 东经 各 发 生 拥 守 ， 那 限制 发 送 窗口 反而 能 提高 性 能 ， 因 为 即便 
万 分 之 一 的 重 传 对 性 能 的 影 啊 都 很 大 。 在 很 多 操作 系统 上 可 以 通过 限制 
接收 窗口 的 方法 来 减 小 发 送 窗 口 ，Windows 上 同样 可 以 参考 KB 
224829 。 


。 超时 重 传 对 性 能 影响 最 大 ， 因 为 它 有 一 段 时 间 〈RTO) 没有 传输 
任何 数据 ， 而 且 拥 署 窗口 会 补充 成 1 个 MSS， 所 以 要 尽量 避免 超时 重 
传 。 


。 快速 重 传 对 性 能 影 啊 小 一 些 ， 因 为 它 没有 等 待 时间 ， 而 且 拥 塞 窗 
口 减 小 的 幅度 没 那么 大 。 


。SACK 和 NewReno 有 利于 提高 重 传 效 率 ， 提 高 传输 性 能 。 


。 丢 包 对 极 小 文件 的 影响 比 大 文件 严重 。 因 为 读 写 一 个 小 文件 希 要 
的 包 数 很 少 ， 所 以 丢 包 时 往往 竣 不 满 3 个 Dup ”Ack， 只 能 等 竺 超时 重 传 
了 。 而 大 文件 有 较 大 可 能 触 肥 快 速 重 传 。 下 面 的 实验 显示 了 同样 的 丢 包 
率 对 大 小 文件 的 不 同 影响 : 图 11 中 的 test 十 包含 很 多 小 文件 的 目录 ， 而 
图 12 的 hi 是 一 个 大 文件 。 及 生 丢 包 时 前 者 耗 时 增加 了 7 们 多 ， 而 后 者 只 
增加 了 不 到 4 倍 。 
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图 12 


迟 硝 认 与 Nagle 算 法 


不 知道 前 两 篇 的 内 容 有 没有 令 你 感到 头疼 ? 幸好 ， 这 一 篇 终于 可 以 
讨论 跟 TCP 窗 口 无 关 的 话题 了 。 

发 送 窗口 一 般 只 影响 大 块 的 数据 传输 ， 比 如 读 写 大 文件 。 而 频繁 交 
互 的 小 块 数据 不 太 在 乎 发 送 窗口 的 大 小 ， 因 为 发 包 量 本 来 就 少 。 日 常生 
活 中 这 样 的 场景 很 多 ， 比 如 用 Putty 之 类 的 SSH 客 户 凯 连 上 一 人 台 Linux 服 
务 器 ， 然 后 随便 输入 一 些 字符 ， i 当 
网 络 状况 良好 时 ， 我 们 会 感 tei iota 其 原因 ， 
是 因为 每 输入 一 个 字符 就 们 打 成 TCP 包 传 到 服务 器 人 右 也 随 
即 进 行 回复 。 

假如 把 这 个 过 程 的 包 抓 下 来 ， 会 看 到 很 多 小 包 频 索 来 往 于 客户 端 和 
服务 磺 之 间 。 这 种 方式 其 实 是 很 低 效 的 ， 因 为 一 个 包 的 TCP 头 和 了 PP 头 人 至 
少 就 40 字 节 ， 而 携带 的 数据 却 只 有 一 个 字符 。 这 束 像 快递 员 开 着 大 货 
去 送 一 个 小 包 衷 一样 泥 费 。 

我 做 了 一 个 实验 来 研究 这 个 现象 。 先 在 Putty 上 缓慢 地 输入 3 个 字 
符 5j”， 每 次 按键 的 间隔 在 300 毫 秒 以 上 ， 这 时 候 Wireshark 抓 到 了 前 9 个 
包 。 接 着 我 快速 敲 击 键盘 ，Wireshark 又 抓 了 后 面 的 包 ，Wireshark 截 屏 
如 图 1 所 不。 
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图 1 


前 3 个 包 的 解说 如 下 。 

客户 只: “我 想 给 你 发 个 加 密 后 的 字符 宁 。?” 

服务 器 : “我 收 到 字符 宁 了 ， 你 可 以 把 它 显 示 出 来 。” 

客户 端 : “知道 了 。” 

接 下 来 的 4、5、6 号 包 ， 以 及 7、8、9 号 包 也 是 一 样 的 情况 

我 的 客户 端 10.32.200.43 放 在 上 海 ， 而 服务 器 10.32.23.55 位 于 悉尼 ， 
它们 之 则 的 往返 时 间 大 概 是 150 嗓 秒 。 由 于 这 些 包 是 在 客户 并 收集 的 ， 
所 以 1 写 包 和 2 号 包 相 差 150 暑 秒 是 正常 现象 。 奇 怪 的 是 客户 问 收 到 2 号 包 
之 后 ， 葛 然 等 待 了 大 约 200 坚 秒 才 用 出 3 号 包 。 本 来 是 1 坚 秒 之 内 可 以 完 
成 的 事 ， 为 什么 要 等 这 么 久 呢 ?再 看 看 5 号 和 6 号 之 间 ， 以 及 8 亏 和 9 号 之 
间 ， 也 是 大 概 相 震 200 罕 秒 。 

这 其 实 束 是 TCP 处 理 交 互 式 场景 的 策略 之 一 ， 称 为 延 人 运 确 认 。 访 宽 
略 的 原理 是 这 样 的 : 如 果 收 到 一 个 包 之 后 暂时 没什么 数据 要 发 给 对 方 ， 
那 就 延迟 一 段 时 间 《〈 在 Windows 上 默认 为 200 毫 秒 ) 再 确认 。 假 如 在 这 
段 时 间 里 恰好 有 数据 要 发 送 ， 那 确认 信息 和 数据 就 可 以 在 一 个 包 里 发 出 
去 了 。 第 12 写 包 束 恰好 符合 这 个 策略 ， 客 户 闹 收 到 11 号 包 之 后 ， 等 了 41 
坚 秒 左右 时 我 义 输入 一 个 字 从 。 结 果 这 个 字符 和 对 11 号 包 的 确认 信息 束 
一 起 装 在 12 号 包 里 了 。 

延迟 确认 并 没有 直接 提高 性 能 ， 它 只 是 减少 了 部 分 确认 包 ， 减 轻 了 
网 络 负担 。 有 时 候 延 返 确认 反而 会 影响 性 能 。 微 软 的 KB 328890 提供 了 
关闭 延迟 确认 的 步 又。 我 在 另 一 台 客 户 端 10.32.200.131 上 实施 这 些 步 观 
后 ， 结 果 如 疼 2 所 示 ， 林 然 不 到 1 军 秒 束 用 确认 了 《参见 6 号 包 和 7 号 包 的 
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图 2 


仔细 看 图 1 和 图 2， 会 发 现 每 个 SSH Request 都 是 52 字 市 ， 这 表明 它 


只 包含 了 一 个 加 黎 的 字符 。 虽 然 在 图 1 的 12 号 到 18 号 包 之 间 的 100 坚 秒 里 
(还 不 到 一 个 往返 时 间 ) ， 我 一 共和 输入 了 7 个 字符 ， 但 这 些 字 符 也 被 逐 
个 打 成 小 包 了 。 能 不 能 设计 一 个 绥 冲 机 制 |， ty 
数据 收集 起 来 ， 合 并 成 一 个 大 包 呢 ?Nagle 算 法 就 实现 了 这 个 功能 。 这 

修 算 法 的 原理 是 : 在 发 出 去 的 数据 还 没有 家 确认 之 表 ， lag 
生成 ， 那 就 把 小 数据 收集 起 来 ， 闫 满 一 个 MSS 或 者 等 收 到 确认 后 再 友 

关 。 图 3 是 我 局 用 Nagle 之 后 的 新 实验 ， 第 一 个 包 把 我 输入 的 第 一 个 字符 
发 出 去 了 。 在 收 到 确认 包 之 前 的 150 毫 秒 里 ， 我 又 输入 6 个 字符 。 这 6 个 
字 从 并 没有 人 锐 逐 个 发 送 ， 而 是 包 ke 收 集 起 来 ， 等 收 到 2 与 包 之 后 ， 从 3 与 包 
里 一 起 友 运 。 这 束 是 为 什么 3 号 包 携 之 的 数据 长 有 度 是 312 衬 节 。 


No, ee 二 Re Erotoca ]mfa 


43 sH Encrypted reguest packet Te 
2 1 32. 2 55 0 32. 200， .43 2013- 09- 08 10: 43: :48 206357 ssh Encrypte re Backet ey 
93 5 Encrypted reguest packet len=312 
4 10 32. 23 55 10. 32: 200. .43 2013- 09- 08 10: 43: 48 355334 S5H Encrypted BE Pat len-52 
才子 ssH Enmcrvypted i atket le 8 
6 1 32， 3 55 10: 32. 200， .43 2013- os- 08 10: 43: 48 504118 SsH Encrypted response De Ten252 
3 -18 L ss5sH Encrypted r est packet len=260 


1 32, 23 .5 10. 32. 200. .43 2013- 09- -08 10: 3 :48. 652951 ss5H Encr¥ypted RE packet len=52 
10 J 32. 23. 3.55 10 10. 32. 200. .43 2013- 09- oi 10: 3 :48. 502095 ss he dame ren ree he 
ee, me a i ed 10. 32. 200. 3 2013- Es sos 1 和 a3: 48. 950931 i te A ere te nse 
- i SE a Sa 半 3 gt 09- 08 10: 4 49. Ee pp sb ee en me 


图 3 


和 延迟 确认 一 样 ，Nagle 也 没有 直接 提高 性 能 ， 局 用 它 的 作用 只 是 
所 高 传输 效 诸 ， 城 轻 网 络 负 担 。 在 荣 些 场合 ， 比 如 和 延 到 确认 一 起 使 用 
时 甚至 会 降低 性 能 。 微 软 也 有 篇 KB 指导 如 何 关 闭 Nagle， 但 是 一 般 没 有 
这 个 必要 ， 原 因 之 一 是 很 多 软件 己 经 默认 关闭 Nagle 了 了 。 比 如 打开 
Putty， 到 “Connection” 选 项 里 可 见 “Disable Nagle’s algorithm” 默 认 就 是 选 
中 的 ， 如 图 4 所 示 。 
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图 4 


我 司 用 Nagle 的 另 一 个 原因 是 ， 很 多 高 手 说 目 己 解雇 过 Nagle 所 导致 
的 问题 。 我 布 望 目 己 也 能 磁 上 一 回 ， 这 样 以 后 伪装 成 蜗 手 时 束 有 谈资 
了 ， 可 惜 目前 为 止 还 没 机 会 磁 到 。 我 曾经 拿 到 过 图 5 所 示 的 一 个 包 ， 据 
说 是 Nagle 导 人 致 了 写 文件 很 慢 。 之 所 以 定位 到 Nagle， 是 因为 客户 闹 收 
到 “SetInfo Response” 之 后 ， 要 等 上 100 多 坚 秒 再 发 送 下 一 个 “SetInfo 
Request”。 他 们 怀疑 是 客户 闫 在 这 100 多 坚 秒 里 忙于 Rh 


» our Destin liom rte Tg otoc ol wn 
2 10, 下 元- 本 了。 让 % 5 2013-09-03 14: 33:09.682384 2 RTI nto ee FILE_INFO SM Be TLE ALLOCATION INEO 
.111.9 a ).111.1 7 2013-09-03 14:53:09. 683- ME seat Info Tr nse | i 








SMB2 SetInfo Re eques t FILE_INFO/SMB2 FILE_ALLOCATION_INFO 






FILE ML LOCATION INED 


| es a Dns 5 EE 
5et Re st FILE _TNFD MB2 
71 .111. 9 本 二 全 荆 : 了 7 2013-09-0 由 二 了 人生- 9361397 SME2 Pst dae p i 
号 于 人 0- 二 1 二- 4 了 -时 10 111 全 2013=D9-03 14:53:10:080d 区 SetIfo Request FILEINFD,SME2 LE_ALLOCATINN_INFO 
$10 41119.d1 10.111.47:4 2013-05 本 苗子 站。 08 | stINFo Response EE 


EE 
了 本 站 加 四 四 
J Pr 





我 一 开始 非常 蜗 兴 ， 以 为 终于 碰 到 一 回 了 。 人 和 仔细 一 看 非常 失望 ， 


为 这 个 症状 并 不 符合 Nagle 的 定义 。Nagle 是 在 没收 到 确认 之 前 先 收 集 数 
扼 ， 一 旦 收 到 确认 瓯 立即 把 数据 友 出 去 ， 而 不 是 等 100 多 坚 秒 之 后 册 
及 。 如 条 说 这 个 现象 是 延迟 确认 还 更 接近 一 氮 ， 但 也 不 正确 。 它 实际 是 
应 用 层 的 一 个 bug 导 致 的 ， 换 了 个 SMB 版 本 后 问题 就 消失 了 ， 我 就 这 样 
音 失 了 一 次 念 乡 成 遍 手 的 机 会 。 


白 家 争鸣 


离职 不 久 的 老 同 事 给 我 及 来 一 条 短信 :“ 阿 满 ， 能 否 解释 一 下 
Westwood 和 Vegas 等 TCP 算 法 的 差别 ? ” 

这 个 问题 让 我 硕 感 意外 。 真 是 士 别 三 日 ， 当 刮目相看 ， 怎 么 才 跳 楷 
没 几 天 吏 研 究 到 如 此 高 新 洋 气 上 档次 的 方 各 了? 不 过 转念 一 想 ， 假 如 新 
工作 是 设计 一 个 网 络 平台 ， 那 还 是 很 有 必要 知道 这 些 知 识 的 ， 因 为 不 同 
的 场景 适合 不 同 的 TCP 算 法 。 而 要 了 解 这 些 算法 ， 融 得 从 TCP 最 原始 的 
设计 开始 讲 起 。 最 时 系统 性 地 阐述 了 悍 局 动 、 拥 圭 避 人 免 和 快速 重 传 等 算 
法 的 并 非 RFC， 而 是 1993 年 年 展 出 版 的 奇 书 《TCP/IP Tllustrated, Volume 
1: The Protocols》， 作 者 是 我 以 前 提 到 过 的 一 位 教父 级 人 物 一 一 Richard 
Stevens。 直 到 1997 和 年， 这 本 书 中 的 内 容 才 被 复 制 到 了 REFC 2001 中 。 我 
第 一 次 谈 到 这 些 算 法 时 拍 守 叫 绝 ， 完 全 不 知道 还 有 优化 之 处 。 比 如 书 中 
介绍 了 一 个 叫 “ 临 界 窗口 值 * 的 概念 ， 当 拥 窗 窗 口 处 于 临界 窗口 值 以 下 
时 ， 就 用 增 速 较 快 的 慢 局 动 算 法 当 拥塞 窗口 升 到 临 弄 窗口 值 以 上 时 ， 
则 改 用 增 速 较 慢 的 拥 考 避免 算法 。 从 图 1 可 见 ， 临 界 和 窗口 前 后 的 和 料 率 有 
明显 的 变化 。 这 个 机 制 有 利于 拥 寺 窗口 在 最 短 时 间 到 达 高 位 ， 然 后 保持 
尽 可 能 长 的 时 间 才 触 碰 拥 考 点 ， 思 路 还 是 很 科学 的 。 
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图 1 


那 临 界 窗口 应 该 如 何 取 值 才 合理 呢 ? 我 能 想到 的 ， 就 是 在 带宽 大 的 
环境 中 取得 大 一 些 ， 在 种 宪 小 的 环境 中 取得 小 一 些 。RFC 2001 也 是 这 样 
建议 的 ， 它 把 临界 窗口 值 定 义 为 发 生 丢 包 时 拥塞 窗口 的 一 半 大 小 。 我 们 
可 以 想象 在 带宽 大 的 环境 中 ， 发 生 丢 包 时 的 拥塞 窗口 往往 也 比较 大 ， 所 
以 临界 窗口 值 自然 会 随 之 加 大 。 可 以 用 下 面 的 例子 来 加 以 说 明 。 

图 2 在 拥塞 窗口 为 16 个 MSS 时 发 生 了 丢 包 ， 而 图 3 在 拥塞 窗口 为 8 个 
MSS 时 残 丢 包 了 ， 说 明 当 时 图 2 中 的 训 宽 很 可 能 比 图 3 中 的 大 。 根 据 RFC 
2001， 我 们 和 希望 接 下 来 图 2 的 拥塞 窗口 能 快速 恢复 到 临界 窗口 值 16/2=8 
个 MSS， 然 后 再 缓慢 增加 ;也 和 希望 图 3 中 的 拥塞 窗口 能 快速 恢复 到 临界 
窗口 值 8/2=4 个 MSS， 然 后 再 绥 慢 增加 。 这 样 做 的 结果 就 是 图 2 的 拥塞 窗 
口 比 图 3 的 增长 得 更 快 ， 更 配 得 起 它 的 带宽 。 以 上 这 些 分 析 ， 看 上 去 很 
有 道理 吧 ? 
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用 塞 窗口 为 8 个 MSS 时 
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图 3 


有 些 聪明 人 束 不 认同 以 上 分 析 。 比 如 有 一 位 叫 Saverio Mascolo 的 意 
大 利 人 看 了 这 个 算法 之 后 ， 和 觉得 太 人 徐 单 粗 么 了。 真实 环境 的 丢 包 状 况 比 
上 和 面 的 例子 复 林 得 多 ， 比 如 在 相同 大 小 的 拥 畦 窗口 中 ， 有 时 候 丢 包 的 比 
例 大 ， 有 时 候 丢 包 的 比例 小 ， 统 一 按照 拥 至 窗口 的 一 半 取 值 是 不 理想 
的 。 我 们 可 以 看 看 下 面 这 个 例子 。 

图 4 和 网 5 在 发 生 丢 包 时 的 拥塞 窗口 都 是 16 个 MSS， 不 过 图 4 丢 了 4 个 
包 ， 而 图 5 丢 了 12 个 。 如 果 按 照 RFEC 2001 的 算法 ， 两 边 的 临界 窗口 值 都 
应 设 侯 定义 为 16/2=8 个 MSS。 这 显然 是 不 合理 的 ， 因 为 图 4 于 了 4 个 包 ， 
图 5 丢 了 12 人 个， 说明 当时 图 4 的 市 宽 很 可 能 比 图 5 的 大 ， 应 该 把 临界 窗口 
值 设 得 比 图 5 的 大 才 对 。 归 纳 一 下 ， 理 想 的 算法 应 该 是 先 推 算出 有 和 多少 
包 已 经 被 送 达 接 收 方 ， 从 而 更 精确 地 估算 发 生 拥 塞 时 的 带宽 ， 最 后 再 依 
据 市 宽 来 确定 新 的 拥塞 窗口 。 那 么 如 何 知 道 哪些 包 衫 大 达 了 了 呢 ?7 玖 悉 
TCP 协 议 的 旋 者 应 设想 到 了 一 可 以 根据 接收 方 回 应 的 Ack 来 推算 。 于 十 
不 安 分 的 Saverio 先 生 依 据 这 个 理论 提出 了 Westwood 算 法 《当然 实 施 起 
来 不 是 我 说 的 这 么 徐 单 ) ， 后 来 义 升级 为 Westwood+。 
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图 4 


拥塞 窗口 为 16 个 MSS 时 
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图 5 


从 设计 理念 束 可 以 看 出 ， 当 丢 包 很 轻微 时 ， 由 于 Westwood 能 估算 
出 当时 拥 才 并 不 严重 ， 所 以 不 会 大 幅度 减 小 临 弄 窗口 值 ， 传 输 速度 也 能 
得 以 保持 。 在 经 沼 发 生 非 拥 罕 性 丢 包 的 环境 中 比如 无 线 网 络 ) ， 
Westwood 最 能 体现 出 其 优势 。 目 前 关于 Westwood 的 研究 有 很 多 ， 我 其 
至 能 找到 不 少 中 文 论文 ， 实际 中 也 有 应 用 ， 比 如 部 分 Linux 版 本 束 用 到 
了 它 。 我 一 同 有 有 “人肉”IT 界 牛人 的 习惯 ，Saverio 和 完 生 当然 也 在 列 。 不 过 
当 我 打开 他 的 主页 时 ， 友 现 都 是 意大利 文 ， 只 好 作 喷 。 

这 里 要 插播 一 个 有 趣 的 情况 。RFC 2581 也 同样 改进 了 RFC 2001 中 
关于 临界 ”窗口 值 的 计算 公式 ， 把 原先 “ 拥 畦 窗口 的 一 半 ” 改 为 FlightSize 
的 一 半 ， 其 中 FlightSize 的 定义 是 “The amount of data that has been sent 
but not yet acknowledged《〈 已 发 送 但 未 确认 的 数据 量 ) 。” 如 果 根 据 这 个 
定义 ， 我 们 会 尺 育 地 算出 图 4 的 临界 窗口 值 为 4/2=2 MSS， 而 图 5 的 临界 
窗口 值 为 12/2=6 MSS。 这 跟 “ 图 4 应 该 大 于 图 5” 的 期 望 是 完全 相反 的 ， 难 
道 RFC 2581 有 错误 ? 这 可 是 经 过 无 数 人 检验 过 的 阁 名 文档 。 我 曾经 志 心 
不 安 地 把 这 个 问题 发 给 过 几 位 国外 同行 ， 说 “Could you confirm if there is 
any problem with my brain or RFC 2581?” 邓 好 得 到 的 答复 大 多 认为 我 的 
大 脑 是 正和 的 ， 他 们 也 认为 这 个 算法 有 问题 。 最 后 有 一 位 大 牛 现 届 ， 说 
我 们 对 RFC 2581 的 要 求 太 局 了 ， 当 初 设 计 的 时 候 根 本 没 考 碟 这 么 多 。 引 
进 FlightSize 只 是 为 了 得 到 一 个 安全 的 临界 窗口 值 ， 而 不 是 像 
Westwood+ 一 样 奶 求 比 较 理 想 的 窗口 。 

接 下 来 我 们 说 说 Vegas 算法 。 如 果 说 Westwood 只 是 对 TCP 进 行 了 细 
节 性 的 、 改 民 性 的 优化 ，Vegas 则 引入 了 一 个 全 新 的 理念 。 本 书 之 前 介 
绍 过 的 所 有 算法 ， 都 是 在 丢 包 后 才 调和 拥 天 窗口 的 。Vegas 却 独 辟 蹊 
径 ， 通 过 监控 网 络 状态 来 调整 用 包 速 度 ， 从 而 实现 真正 的 “ 拥 赛 避免 ”。 
它 的 理论 依据 也 并 不 复杂 : 当 网 络 状况 民 好 时 ， 数 据 包 的 RTT〈 往 返 时 
间 〉 比 较 稳 定 ， 这 时 候 束 可 以 增 大 拥 窗 窗口 ; 当 网 络 开 始 演 忙 时 ， 数 据 
包 开 始 排队 ，RIT 残 会 变 大 ， 这 时 候 束 需要 减 小 拥堵 窗口 了 。 该 设计 的 


最 大 优势 在 于 ， 在 拥堵 真正 发 和 后 之 前 ， 发 送 方 已 经 能 通过 RTT 预 测 到 ， 
并 且 通 过 减缓 发 送 速 上 度 来 避 倪 于 包 的 发 生 。 

与 别 的 算法 相 比 ，Vegas 束 像 一 位 敏感 、 稳 持 、 谦 让 的 君子 。 我 们 
可 以 想象 当 环境 中 所 有 及 送 方 都 使 用 Vegas 时 ， 总 体 传 输 情 况 是 更 稳 
定 、 更 高 效 鸭 ， 因 为 几乎 没有 丢 包 会 发 生 。 而 当 环 境 中 存在 Vegas 和 其 
他 算法 时 ， 使 用 Vegas 的 发 送 方 可 能 是 性 能 最 亚 鸭 ， 因为 它 最 早 探 独 到 
网 络 索 忙 ， a sari pei 这 一 让 步 可 能 就 释放 了 网 
络 的 压力 ， 从 而 避免 其 他 及 送 方 这 遇 丢 包 。 这 个 情况 有 点 像 开 和 车， 如果 
路 上 每 位 司机 的 车 品 都 很 好 ， 店 让 守 规 矩 ， oo 而 如 
条 一 位 车 品 很 好 的 司机 跟 一 群 车 品 很 震 的 司机 一 起 开车 ， 则 可 能 被 频 索 
加 答 ， 最 后 成 了 开 得 最 慢 的 一 个 。 

除了 本 文 提 到 的 Westwood 和 Vegas， 还 有 很 多 有 意思 的 TCP 算 法 。 
比如 Windows 操 作 系 统 中 用 到 的 Compound 算 法 就 同时 维持 了 两 个 拥塞 
窗口 ， 其 中 一 个 类 似 Vegas， 为 一 个 类 似 RFC 2581， 但 真正 起 作用 的 十 
两 者 之 和 。 所 以 说 Compound 走 的 是 中 庸 之 道 ， 在 保持 谦让 的 前 提 下 也 
不 失 进 取 。 在 Windows 7 上 ， 上 默认 情况 下 Compound 算 法 是 关闭 的 ， 我 们 
可 以 通过 下 面 的 命令 来 局 用 它 。 
netsh interface tcp set global congestionprovider=ctcp 

局 用 之 后 如 果 筑 得 不 合适 ， 可 以 通过 以 下 命令 来 天 财 。 


netsh interface tcp set global congestionprovider=none 


图 6 是 在 我 的 实验 机 上 局 用 的 过 程 。 


国 Administrator CW indows\system3a md ExE | = 
:>netsh interface tcp show global * 
Juerying actLue state.., 


TCR Global Parameters 











tecelve-—Slde Scaling State : enabled 
himney Offload State : AUtomatlc 
etDMH State : enabled 
JE Cache fcess (DCA) : disabled 
cr Hu hl | rh [= | 
: disabled | 
EC 1929 WN : disabled 


edn nterface tcp set global conygestionprovider=ctep 


:>netsh 1nterface to show global 
uerying active state. 


TGP Global Parameters 





tecelyve-S1ide Scalinyg $tate : enabled 

himney Offload State : duUtomatlic 

etDMA State : enabled 

Direct Cache hcess (DCh] : disabled 

E 1 el 中 自 轴 丁磊 记 台 -Lis 

dd Un Congestion kontrol er ] 
dpability : disabled 

FG Jd23 Timestamps : disabled 

图 6 


Linux 操 作 系 统 则 在 不 同 的 内 核 版 本 中 使 用 不 同 的 责 认 TCP 算 法 ， 
比如 Linux kernels 2.6.18 用 到 了 BIC 算 法 ， 而 Linux kernels 2.6.19 则 升级 
到 了 CUBIC 算 法 。 后 者 比 前 者 的 行为 信守 一 些 ， 因 为 在 网 络 状况 非 音 粳 
料 的 状况 下 ， 你 守 一 点 的 性 能 反而 更 好 。 

在 过 去 几 十 年 里 ， 虽 然 TCP 从 来 没有 过 到 过 对 手 ， 不 过 它 目 己 已 经 
演化 出 无 数 分 结 ， 形 成 百家争鸣 的 局 面 。 本 文 无 法 一 一 列举 所 有 的 算 
法 ， 点 到 的 也 如 晴 蝶 点 水 ， 假 如 你 想 为 目 己 的 网 络 平 台 选 取 其 中 一 种 ， 
还 需要 多 多 研究。 


简 早 的 代价 一 一 UDP 


说 到 UDP， 就 不 得 不 拿 TCP 来 对 比 。 谁 叫 它们 是 竞争 对 手 呢 ? 

前 文 提 a 到 过 UDP 无 害 连 接 ， 所 以 非常 适合 DNS 介 询 。 图 1 和 图 2 是 分 
别 在 基于 UDP 和 TCP 时 执行 DNS 查 询 的 两 个 包 ， 前 者 明显 更 加 直 截 了 
当 ， 两 个 包 就 完成 了 。 


基于 UDP 的 碍 |: 


和 OWIrcE kiom Trme Protocol [mito 





estination Tirme 了 ctocal nfe 





3 1 32, 106. 15910. 32.106.103 16:39: 08， 396 TCP 4394541 > Te yr 本 1 Ac a =1 Win=5856 Len=0 Tsval=2711905588 T: 
4 10.32,106,.15910, 32.105.103 16:39:08,3956 DRS stamdard guery A paddy_ Cifs.nas. Com 

$10 32,1065,10310,. 32;106.153 16:39:08,397 DHS Standard guery response: &. 10, 32.1065;77 

0 二 13910. 2 2 有 二 OB. TceP 38341 » EEN Sd rl, EE 39 上 上 = 3 ea Le i TVa pd 







5 10. 32. 106, 10310. 3 106. 159 16: 39: 08， 398 TeP domain 38541 [ac] eq-55 Ack=40 Win65497 | Len-0 TS 81445534 、 1 


ET Er 和 Ep 3 TEP ET sa A a ek 人 rp 


图 2 
UDP 为 什么 能 如 此 直接 呢 ? 其 实 是 因为 它 设 计 简 单 ， 想 复杂 起 来 都 
eben pe 中 ， 只 有 病 口 写 、 包 长 上 度 和 校 验 公 等 少量 信息 ， 
总 共 束 8 个 字 节 。 小 巧 的 头 部 给 它 禹 来 了 一 些 优点 。 


。 由 于 UDP 协议 头 长 度 还 不 到 TCP 头 的 一 半 ， 所 以 在 同样 大 小 的 包 
里 ，UDP 包 携 市 的 阐 数 据 比 TCP 包 多 一 些 。 


由 于 UDP 没有 Seq 号 和 Ack 号 等 概念 ， 无 法 维持 一 个 连接 ， 所 以 省 
去 了 建立 连接 的 负担 。 这 个 优 委 在 DNS 得 询 中 体现 得 淋漓 尽 致 。 


当然 简单 的 设计 不 一 宪 是 好 事 ， 更 多 的 时 候 会 市 来 问题 。 
1. UDP 不 像 TCP 一 样 在 乎 双方 MTU 的 大 小 。 它 拿 到 应 用 层 的 数据 


之 后 ， 直 接 打 上 UDP 头 残 区 给 下 一 层 了 了。 那么 超过 MTU 的 时 候 怎 么 
办 ? 在 这 种 情况 下 ， 用 送 方 的 网 络 层 负 贡 分 片 ， 接 收 方 收 到 分 手 后 册 组 
疙 起 来 ， 这 个 过 程 会 消耗 资源 ， 降 低 性 能 。 图 3 古 一 个 32 KB 的 与 操作 ， 
根据 发 送 万 的 MIU 被 切 成 了 23 个 分 wa 


SoUFCeE Destinationm Time Protocol infa 

7 0. 32,.106,.15910, 32,.10672 13:55:5 IF Fragmernted IP protocol Cprote=iDp DLL off=0: ID=00Bc} [Reassenmbled 1n #29] 

二 各- 32.106.15410.32-106-72 :55:53 IF Fragmenmted IP protocol fproto=DF Oxii, off=i480, IDB=00Bcy [Remssembled 1m #2o] 
10. 32,.106,15910,.32.106,.72 13:55:59 IF Fragmented IF protocol fproto=U0R 0x11, ff=2960: ID=00ECc) [Reassemblied 1m #2a] 
1 10. 32,.106,13910, 32,.106.72 13:53;:59 -IF Fragmented IP protocal tproto=y0P Oxilli, off=4440, ID=008c) [Reassembled 1m #2d] 
11 10: 32,106,15910. 32.106.72 13:55:59 IF Fragmented IP protocol tproto=iDr DLL ff=5920, ID=006Bc) [Reassembled 1m #2o] 
二 10. 32,.106,13910,. 32.106.72 13:53:353 IF Fragmemnted IP protocoal tproto=UOP Oxil, off=7400, ID=00Bc) [Reassembled 1m #2d] 
13 10. 323.106.15910.32.108.72 13:55*59 IP Fragmerred rp prorocol fprotro=u0F Ol1, ffsBaSO,. ID=i0ECY [Reassembled 1 #23] 
14 10. 32.106,13910, 32.106.72 13:53: IFR Fragmemnted IP protocal tproto=U0R 01, off=10360, IDO=00Bcy [Reassenmblied 1n #2 
15 10. 32.106.15910. 32.1058.72 13:55*59 1p Fragmerrted rp prorocol (fproto=u0r O31, offoa118a0, TIO-00BC) [Reassemhled 1m #29] 
16 10. 32.105,15910,32,.106.72 13:5559 IF Fragmented IF protocol Cproto=UOR OxIl, off=13320 TOO06cY [Reassenhled 1nm #en] 
17 10. 32.106.15910.32.105.72 1355:59 IF Fragmertced 工 FF prorocol (proto=u0F O01 Off=14300, IO=00BCY [Reassenhled tm #29] 
1B 10. 32,105,15910,. 32.105,.72 13:55359 IF Fragmented IP protocel tprote=U0P 0x11, ff=16280, ID=00BCY [Reassembhlied 1nm #29] 
1i19 10.32.1065.15910. 32.106.72 43:55:59 LP Fragmerted IP prorcocal CproTO=UDF Oi, ofT=177ED, IO=00Bc) [REASSeNDTled 1r #29] 
20 10: 32,106.15910, 32.106,.72 13:5559 IF Fragmented IP protocol tprote=U0PR 0x11, ff=19240, ID=00BCY [Reassembled 1nm #29] 
a1 10. 32.106,135910, 32.106.72 13:53;3 IF Fragmented IP protocol tproto=U0P wil1, off=20720, TIO-00Bcy [Reassestied 1nm #9] 
22 10. 32,106,15910, 32.106.72 13:5559 IF Fragmented IP protocol tproto=U0P OXIL: tff=22200s ID=00BCY [Reassemblied 1n #29] 
3 40. 32.106,13910,. 32.106.72 13;33;33 IF Fragmented IP protocol fproto=UDP Oxil, off=23$680, TC-O0Bcy [Reassenmbled 1n #29] 
24 10. 32,106,15910,.32,.10672 并 335535 IP -Fragmented IFP prococol fproro=u0r O01 off=25160 IO=00EC) [Reassenbled 1r #29] 
a5 0.32,106,153910, 32,106,.72 13:53:3 -IF Fragmented IP protocol tproto=UDP iil, off=26640, TO=00Bcy [Reassembled 1nm 29] 
26 10. 32:106.15910.32.1065. 3 13:55:59 EF Fragmentced 工 P prococal fproro=uor Oi1, off=s28120, IO=DD0BC) [Reassenbled +r #25] 
a7 0 $2.100,13910, 32.106 72 13:33:%9 IF -Fragmented IF protocol tproto=UOP Gl, off=29000, IO0ECY [Reassembled in #29] 
了 加 10- 32.106. 3 32. L106. 72 13:55:59 IP -Fragmerrted IF prococol KPr DTDO=UDP di, Bim me [RE nen ed tm 二 29] 
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2. UDP 没有 重 传 机 制 ， 所 以 丢 包 由 应 用 层 来 处 理 。 如 下 面 的 例子 
所 示 ， 某 个 写 操 作 需 要 6 个 包 完 成 。 当 基于 UDP 的 写 操作 中 有 一 个 包 丢 
失 时 ， 客 户 疹 不 得 不 重 传 整个 与 操作 〈6 个 包 ) 。 相 比 之 下 ， 基 于 TCP 
的 写 操作 就 好 很 多 ， 只 要 重 传 丢 失 的 那 1 个 包 即 可 。 

基于 UDP 的 NFS 写 操作 〈 见 图 4) : 





NFS 写 请 求 














服务 器 无 法 组 装 这 些 




















所 以 不 啊 应 
客户 端 等 不 到 啊 应 ， 
只 能 从 头 再 写 一 次 一 

NFS 写 啊 应 





图 4 


基于 TCP 的 NFS 写 操作 〈( 见 图 5) : 











和 4 个 Dup Ack 


触发 了 快速 重 传 
NFS 写 啊 应 


图 5 


也 许 从 这 个 例子 你 还 感受 不 到 明显 的 差别 ， 试 想 一 下 ， 在 高 性 能 环 
卉 中 ， 一 个 写 操作 需要 数 十 个 包 来 完成 ，UDP 的 劣势 就 体现 出 来 了 。 


3. 分 请 机 制 存 在 弱点 ， 会 成 为 黑帮 的 攻击 目标 。 接 收 方 之 所 以 知 
直 什 么 时 候 访 把 分 睛 组 双 起 来 ， 征 因为 每 个 包 里 都 有 “More 


fragments” 的 fag。1 表 示 后 续 还 有 分 片 ，0 则 表示 这 是 最 后 一 个 分 乒 ， 可 
以 组 装 了 。 如 果 黑 客 持续 快速 地 发 送 fag 为 1 的 UDP 包 ， 接 收 方 一 直 无 法 
把 这 些 包 组 竣 起 来 ， 束 有 可 能 耗 太 内 存 。 图 6 左边 是 NFS 写 操作 中 7 一 28 
写 分 片 的 flag， 右 边 是 29 写 分 片 〈( 最 后 一 个 分 厂 ) 的 flag。 


3 Flags: Ox01 (More Fragments) 3 Flags: Ox00 
0... .... = Reserved bit: Not set 0... .... = Reserved bit: Not set 
.0.. .... = Don't fragment: Not set .0.. .... = Don't fragment: Not set 
Sols sons = MOre Tragments: Set .0. .... = More fragments: NOt set 
图 6 


关于 UDP 残 简单 介绍 这 么 多 。 虽 然 我 党 得 这 个 协议 实在 没 多 少 可 谈 
的 ， 但 天 于 UDP 和 TCP 的 争论 一 直 是 菜 些 论 坛 的 热门 话题 。 了 解 了 UDP 
的 工作 方式 ， 也 算 学 会 一 门 伪 痛 成 大 牛 的 手艺 。 下 次 册 有 人 宣称 “UDP 
的 性 能 比 TCP 更 好 ”时 ， 你 可 以 不 案 不 慢 地 告诉 他 ,， “也 不 尽 然 ， 我 来 给 
你 举 一 个 NFS 丢 包 的 例子..……….”。 


剖析 CIFS 协 议 


前 文 介绍 过 一 个 文件 共享 协议 ， 即 Sun 设 计 的 NFS。 理 论 上 NFS 可 
以 应 用 在 任何 操作 系统 上 上， 但 是 因为 历史 原因 ， 现 实 中 只 在 Linux/UNIX 
上 流行 。 那 Windows 上 一 般 使 用 什么 共享 协议 呢 ?” 它 束 是 微软 维护 的 
SMB 协 议 ， 也 叫 Common Internet File System (CIFS)。CIFS 协 议 有 三 
个 版 本 SMB、SMB2 和 SMB3， 目 前 SMB 和 SMB2 比 较 普 遍 。 

在 Windows 上 创建 CIFS 共 享 非 党 简单 ， 只 要 在 一 个 目录 上 右键 单 
击 ， 在 弹出 的 采 单 中 选择 属性 --> 共 享 ， 再 配置 一 下 权限 就 可 以 了 。 如 
图 1 所 示 ， 在 其 WR t 享 名 束 可 以 访问 它 了 。 





CIES 服 务 郁 1] 032 106.72 提 供 了 共享 \dest 








I IP 
CIFS 客 户 机 A 通过 WW10.32.106.72\dest 在 服务 器 上 读 写 CIFS 客 户 机 B 也 通过 wW10.32.106.72vdest 在 服务 器 上 读 写 


图 1 


我 在 读 大 学 的 时 候 ， 曾 经 把 整个 DD 盘 共 享 出 来 ， 没 想到 几 天 后 就 有 
雷锋 在 里 面 放 了 几 部 小 电影 。CIFS 在 企业 环境 中 应 用 非常 广泛 ， 比 如 映 
射 网 络 盘 或 者 共 :部 打印 机 ; 司 事 闻 共 享 资料 也 可 以 采用 这 种 方式 ， 由 于 
使 用 CIFS 的 用 户 实在 太 多 ， 微 软 的 技术 文 持 部 门 每 天 都 会 收 到 很 多 关于 
CIFS 问 题 的 咨询 ( 我 读 大 学 时 曾 在 那里 兼职 过 一 年 ) 。 

要 想 成 为 CIFS 方 面 的 专家 ， 就 必须 了 解 它 的 工作 方式 。 比 如 在 我 的 
实验 室 中 ， 客 户 端 10.32.200.43 打 开 共 享 文件 \10.32.106.72\dest\abc.txt 
时 ， 压 层 完 葛 发 ” 生 了 什么 ?借助 Wireshark， 我 们 可 以 把 这 个 过 程 看 得 


N= 
清 清 楚楚 。 


首先 ，CIFS 只 能 基于 TCP， 所 以 必定 是 以 三 次 握手 开始 的 。 从 图 2 


可 见 ，CIFS 服 务 器 上 的 端口 号 为 445。 


Neo, Source Destination Trme Proktocol Info 
1 4140.32:200-43 10.32-1406.72 DOF:34-30:458935 TEP S4136 3 microsoft-ds ES 二 BIG 站 Win=8i92 Len=0 MSS=1428 
2 19.32.106.72 10.32.200.43 DrF;34:30.4593902 TOCP microsoft-ds %» 54135 [SYN, ACK] Seq=0 ACk=1 Win=655535 Len 
3 40.32. 200.43 10.32.106.72 07:34:30-.460019 “TCP Sd#136 3 microsoft-ds LaAck] Se09=1 页 下 长 三 主语 站 站 一 在 53 Len=B 

| - 

| 田 Frame 3: 54 bytes on Wire 43 bitsy, 4 bytes captured (432 bits) 

| 由 Ethernet ILl: Src;: Dell_G8:80:24 C3c:26.0aGB:80:28),. Dst: Cisco eatd80 Cec: 0 2 La 

世 INternet Protocol, sre: 10. 42. 200.43 {10 32 200.43), Dst;: 10r32.106. 72 (10:32, ) 

Im Transmission Control Protocol, Src Port: S4136 C34136,. Dst Port: microscoft-ds C445, Seq: 1 ACk: 1 Een: wm 


图 2 











接 下 来 的 第 一 个 CIFS 操 作 是 Negotiate 〈 协 商 ) 。 协 商 些 什 么 呢 ? 请 
关注 图 3 的 底部 ， 可 见 客 户 端 把 自己 支持 的 所 有 CIFS 版 本 ， 比 如 SMB2 
和 NT LM 0.12 (为 了 便于 和 SMB2 对 比 ， 接 下 来 我 们 称 它 为 SMB) 等 都 
发 给 服务 器 。 


No， SoUrEE Destinatton Time Pretocol In 
4 10,3j2.200.443 10,.32.106.72 OF::30.460122 SME Negctiate Protocol Reguest 
6 .42106 72 10.32.200.43 OF:3H:30.461026 5ME Neqoetiate Protocol] Response 
+ | 册 


Frame 4: 213 bytes on wire (704 bitsy，213 bytes captured (1704 bitsy 
Ethernet II, Src: Dell 68:80:28 (5c:26:0a:6B:EB0:28), EE Cisco_ 本 ag: BD Cec:30:91:e3:a6:B0) 
Internet Proetocal. SrcC, TB O43 (Oe; 4 . . 
ransmlssion contral Protocol, Src Port: S4136 {541346), Dst er microsoft-ds {445), Seq: 1, AckK: 1 
NETBIDOS Ses510n Service 
SMB (Server Message Block Protocol) 
四 SMB Header 
BB Negotiate Protoco| Reauest (COX A} 
Word Count CWETY: OQ 
Byte Count 于 BC J20 
BB Requested Dialects 
Dialect: PC NETHORK PROGRAM 1.0 
Dialect: LAMMANL.U 
Dialect: Wirndows for Workgroups #4.1a 
Dialect: LN 22X002 
Dialect: LAMIAN2.1 
Dialect: NT LM OO.12 
Dialect: SME 2.002 
Dialect: SMB 2.277 


部 回 | 





于 四 他 


站 本 恒生 辣 司 加 


图 3 


服务 磊 从 中 挑 出 自己 所 支持 的 最 局 版 本 回复 给 客户 六 。 从 图 4 中 可 
知 ， 服 务 器 选择 的 是 NT LM 0.12 (SMB)， 这 说 明了 该 服务 器 不 支持 
SMB2。 


Ns, Scource Destinatiomn Tirmme Protocel lInfe 
a 10.32.200.43 10.32.106-.72 007:34:30.4601]22 5sMB Negotiate Protocol Request 
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图 4 


理解 了 协商 过 程 束 可 以 处 理 CIFS 版 本 相关 的 问题 了。 比如 我 接 到 过 


新 加 坡 某 银行 的 咨询 ， 他 们 想 知 道 如 何 让 客户 新 A 和 服务 右 C 之 间 用 

SMB2 通 信 ， 而 客户 端 B 和 服务 右 C 之 间 用 SMB 通 信 。 我 的 建议 是 在 A 和 

C 上 都 启用 SMB2， 而 在 B 上 只 启用 SMB， 这 样 束 能 协商 出 想 要 的 结果 。 
协商 好 版 本 之 后 ， 就 可 以 建立 CIFS Session 了， 如 图 5 所 示 。 


口 @ 比 miricnm Tm probocal lma 
7 和 O43 10,32,106:72 or 34:30.4651807 SHE SES SprUp AMds FRPP MTLHSTSP_NEGITIATE 
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Session Setup 的 主要 任务 是 身份 验证 ， 第 用 的 方式 有 Kerberos 和 
NTLM (本 例 就 是 用 到 NTLM) 。 这 两 种 方式 都 非常 复杂 且 有 趣 ， 我 会 
为 写 一 扁 文 草 专 门 介绍 。 假 如 有 用 户 抱 忽 访问 不 了 CIFS 服 务 荔 ， 问 题 很 
可 能 就 发 生 在 Session Setup。 

Session ” Setup 过 后 ， 意 味 厦 已 经 打开 \\10.32.106.72 了 。 接 下 来 要 做 
的 是 打开 \dest 共 诗 。 如 图 6 所 不， 这 个 操作 称 为 Tree Connect。 
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Server Component: sMB 
[Response to: 11] 
[Time fronm request: 0.000903000 seconds] 
sMB Command: Tree Conmnect Andx (Ox7?5) 
ErrFror Class: SUCCess (Oxoo) 
民 E5eEr Ved OO 
ErFrror Code: NO Error 
下 Flags: Ox81 
E Flagse: Qx8801 
Process TO High: 站 
signature: O000000000000000 
Reserved: oo 
E Tree ID;: 63 CON10,32.106.72%“DEST) 





图 6 


点 开 这 两 个 Tree Connect 包 ， 最 有 价值 的 信息 当 属 服务 器 返回 的 
Tree ID 〈 如 图 6 撒 部 所 示 ) 。 从 此 之 后 客户 问 就 能 利用 这 个 ID 去 访 
问 /dest 共 至 的 子 目 录 和 子 文 件 。 这 一 步 看 似 人 简单 ， 但 初学 者 也 会 有 一 些 
疑问 。 
常见 问题 1: 如 果 用 户 无 权 访 问 此 目录 ， 会 不 会 在 Tree Connect 这 一 步 
失败 ? 

丛 采 : 不 会 。Tree Connect 并 不 检查 权限 ， 所 以 即便 是 无 权 访问 的 
用 户 也 能 得 到 Tree ID。 检 查 权 限 的 工作 由 接 下 来 的 Create 操 作 完 成 。 


常见 问题 2: 某 用 户 已 经 打开 了 \\10. 32. 106. 72\dest\abc. txt， 如 果 还 
想 再 打开 \\10. 32. 106. 72\source\abc. txt， 需 要 再 建 一 个 TCP 连 接 吗 ? 
答案 : 没有 必要 ， 在 一 个 TCP 连 接 上 能 维持 多 个 打开 的 Tree 
Connect。 
过 了 Tree ne txt 了 ? 其 实 还 差 很 多 步骤 ， 接 
下 来 客户 痪 还 要 在 服务 左上 和 奏 询 很 多 信息 。 看 了 图 7 你 吏 能 理解 为 什么 
入 们 帮 歼 CIFS 协 议 吃 嗓 下 
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图 7 


其 实 从 13 号 到 68 与 包 部 大 天 似 国 7 所 不 的 网 络 包 电 ， 图 7 只 显示 了 一 小 
部 分 ， 我 不 想 把 所 有 内 容 都 贴 出 来 良 费 纸 张 。 这 些 包 奏 询 了 文件 的 基本 
属性 、 标 准 属性 、 扩 展 属 性 ， 还 有 文件 系统 的 信息 等 。 对 好 SMB2 对 此 
有 上 所 改进 。 
再 多 的 属性 也 有 得 完 的 时 候 ， 到 了 69 亏 包 终 于 看 到 Create Request 
vabc.txt 了 《〈 见 图 8) 。 
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图 8 


Create 是 CIFS 中 非常 重要 的 一 个 操作 。 无 论 是 新 建文 件 、 打 开 目 
录 ， 还 是 读 写 文件 ， 都 需要 Create。 有 时 候 我 们 因为 没有 权限 遭 
过 “Access Denied” 错 误 ， 或 者 窗 才 文件 时 收 a 到 “File Already Exists” 提 
醒 ， 都 是 来 自 Create 这 个 操作 。 经 常 有 人 会 咨询 的 儿 个 关于 Create 的 问 
题 如 下 所 示 。 
第 见 问题 1: 如 果 \dest 的 权限 里 荣 止 采用 户 访问 ， 但 \destNabc. txt 的 


权限 里 允许 该 用 户 访 问 ， 那 他 打开 \\10. 32. 106. 72\destNabc. txt 时 会 
不 会 失败 ? 

答案 : 如 果 该 用 户 先 打开 \10.32.106.72\dest， 就 会 在 “NT Create 
\dest” 这 一 步 收 到 Access ”Denied 报错 ， 当 然 就 无 法 再 进一步 打开 abc.txt 
了 。 而 如 果 直 接 在 地 址 栏 输 入 \10.32.106.72\dest\abc.txt， 则 可 以 中 
过 “NT Create \dest”* 这 一 步 ， 所 以 不 会 有 任何 报错 。 也 就 是 说 可 以 且 接 
打开 子 文 件 abc.txt， 却 打 不 开 上 级 文件 夹 \dest， 这 个 结果 可 能 是 很 多 人 
意 想 不 到 的 。 
常见 问题 2: Windows 的 Backup 0perators 组 中 的 用 户 有 权限 备份 所 有 
文件 ， 但 不 一 定 有 权限 读 文 件 。 那 服务 怖 是 怎么 知道 一 个 用 户 是 想 备 份 
还 是 想 读 的 ? 

丛 宁 : 备份 和 读 这 两 个 行为 的 确 非常 相似 ， 都 是 依靠 Read 操 作 来 完 
成 的 。 它 们 的 不 同 点 在 于 ， 备 份 的 时 候 在 Create 请 求 中 的 “Backup 
Intent” 设 为 1， 而 谈 的 时 候 “Backup Intent” 设 为 0( 如 图 9 所 示 ) 。 服 务 妖 
瓯 是 依靠 Backup Intent 来 决定 是 人 耕 允许 访问 的 。 
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图 9 


常见 问题 3: 如 果 多 个 用 户 一 起 访问 相同 文件 ，CIFS 如 何 处 理 冲 突 ? 
答案 : 在 Create 请 求 中 有 Access Mask 和 Share _ Access Mask 两 个 选 
项 。 前 者 ”表示 该 用 户 对 此 文件 的 访问 方式 〈( 读 、 写 、 删 等 ，， 后 者 表 
示 访 用 户 人 允许 其 他 用 户 对 此 文件 的 访问 方式 。 举 个 例子 ， 用 户 A 发 送 的 
Create 请 求 中 ，Access Mask 是 “ 谈 + 写 ?，Share Access Mask 是 “ 谈 ”， 表 示 


目 己 要 谈 和 写 ， 并 同时 允许 其 他 人 只 谈 。 假 如 接 下 来 用 户 B 也 及 这 


Access ”Mask 为 “ 谈 + 写 ”的 Create 请 求 ， 就 会 收 到 “Sharing ”Violation” 错 
误 ， 因 为 A 不 允许 其 他 人 与 。 
图 10 中 的 Access Mask 只 是 读 。 
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图 10 


注 章 : 这 里 讨论 的 访问 冲突 指 的 是 CIFS 协 议 层 的 。 有 些 应 用 软件 还 有 专 
门 的 机 制 防止 访问 冲突 ， 比 如 Word 和 Excel， 但 Notepad 束 没有 。 
单 见 问题 4: CIFS 如 何 你 证 绥 存 数据 的 一 至 性? 

答案 : 客户 端 可 以 暂时 把 文件 缓存 在 本 地 ， 等 用 完 之 后 再 同步 回 服 
务 器 闪 。 这 是 提高 性 能 的 好 办 法 ， 吏 像 我 们 与 论文 时 ， 都 喜欢 把 图 书馆 
的 资料 们 回来 ， 以 备 随时 得 疯 。 假 如 不 这 样 做 ， 吏 得 频 索 地 跑 图 书 饶 答 
资料 ， 时 间 都 当 惕 在 路 上 了 。 当 只 有 一 个 用 户 在 访问 未 文件 时 ， 在 客户 
半 绥 存 该 文件 是 安全 的 ， 但 是 在 有 多 个 用 户 访问 同一 文件 的 情况 下 则 可 
能 出 现 问题 。CIFS 采 用 了 Oplock《〈 机 会 锁 ) 来 解决 这 个 问题 。Oplock 有 
Exclusive、Batch 和 Level 2 三 种 形式 。Exclusive 人 允许 该 写 缓存，Batch 人 允 
许 所 有 操作 的 缓存 ， 而 Level 2 只 允许 读 缓 存 。Oplock 也 是 在 Create 中 实 
现 的 ， 如 图 11 搬 部 所 示 ， 访 客户 六 被 授予 Batch 级 别 的 机 会 锁 ， 表 示 他 
可 以 缓存 所 有 操作 。 
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图 11 


为 了 更 好 地 理解 Oplock 的 工作 方式 ， 我 们 假设 一 个 场景 来 说 明 。 

1. 用 户 A 用 Exclusive/Batch 锁 打开 菜 文件 ， 然 后 缕 存 了 很 多 修改 的 
文件 内 容 。 

2. 用 户 B 想 谈 同 一 个 文件 ， 所 以 及 了 Create 请 求 给 服务 器 

3. 如 果 此 时 服务 器 忽视 A 的 Oplock， 直 接 回 复 B 的 请 求 ， 二 
不 到 被 A 修改 后 的 内 容 〈 也 就 是 出 现 数据 不 一 致 )。 因 此 服务 器 通知 A 
释放 Exclusive/Batch 锁 ， 换 成 Level 2 锁 。 

4. A 立即 把 缓存 里 的 修改 量 同 步 到 服务 

5. 服务 器 给 B 回 复 Create 响 应 ， mee 2 锁 。B 接 下 来 再 
发 讯 请求 ， 从 而 得 到 A 修改 后 的 文件 内 容 。 

到 了 了 Create 这 一 步 ， 距 离 TCP 连 接 的 建立 已 经 过 去 0.093 秒 。 虽 然 听 
上 去 很 得， 但 在 局 域 网 中 已 经 算是 很 长 一 段 时 间 了 。 这 段 时 间 足 够 我 实 
验 室 的 NFS 服 务 硕 啊 应 45 个 64KB 的 读 操 作 ， 而 本 例 中 的 读 操 作 却 刚 要 
开始 ， 可 见 CIFS 协 议 有 多 哎 吧 。 这 让 我 想起 一 个 经 典 问题 ,“ 为 什么 复 
制 一 个 1MB 的 文件 比 复制 1024 个 1KB 的 文件 快 很 多 ， 虽 然 它 们 的 总 大 小 
古 一 样 的 ? 和 人 文 伯 之 前 楼 人 多 时 在 项 
工作 上 。 一 个 1MB 的 文件 只 需要 准备 一 次 ， 而 1024 个 1KB 的 文件 却 需 
1024 座 。 

从 包 号 71 开 始 ， 读 操作 终于 出 现 了 。 如 图 12 所 示 ，CIFS 的 读 行为 看 
上 去 和 NFS 非 常 相似 ， 都 是 从 某 个 offset 开 始 读 一 定数 量 的 字 节 。 文 件 的 
内 容 “I need a vacation!2” 能 从 包 里 直接 看 出 ， 说 明 传输 时 没有 加 答 。 
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还 有 很 多 有 趣 的 行为 是 从 这 两 个 包 里 看 不 出 来 的 ， 必 须 设 计 一 些 实 
验 才 能 归纳 出 来 。 比 如 下 和 面 几 个 常见 问题 ， 可 能 很 多 读者 会 感 兴趣 
常见 问题 1: 同样 是 用 SMB 协 议 读 一 个 文件 ，Windows XP 和 Windows 的 
表现 有 何不 同 ? 

丛 采 : 通 第 一 个 新 的 操作 系统 有 发布 时 ， 微 软 都 会 罗列 它 的 种 种 好 
处 ， 但 大 家 基本 上 上 听 听 融 过 去 了 ， 没 有 人 会 去 较真 。 我 仔细 对 比 了 
Windows XP 和 Windows 7 的 读 行 为 之 后 ， 发 现 Windows 7 的 确 有 所 改 
进 。Windows XP 及 了 一 个 恋 请 求 之 后 融会 分 下 来 等 回复 ， 收 到 回复 后 
册 及 下 一 个 该 请 求 。 而 Windows 7 则 可 以 一 口气 发 出 多 个 读 请 求 ， 束 像 
NFS 一 样 。 下 面 是 在 这 两 种 操作 系统 上 读 同 一 个 文件 的 过 程 ， 两 者 的 到 
别 在 Wireshark 中 一 日 了 7 然 。 


Windows XP 的 Request 和 Response 古 交 葵 的 〈( 见 图 13) : 


wa， Source Dakin Te Petec a jk 
了 WE a 





Windows 7 的 Requests 是 多 个 一 起 发 出 的 〈 见 图 14) : 
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图 14 


这 两 种 斌 方式 在 延 人 运 小 的 网 络 中 体现 不 出 又 别 ， 在 市 宪 小 的 环境 中 
才 别 也 不 大 《因为 友 运 窗口 小 ， 一 个 讯 请求 本 来 就 要 多 个 往返 才能 传 
元 ) 。 但 在 高 延迟 、 大 市 宽 的 环境 中 了 吏 很 不 一 样 了 ，Windows 7 的 性 能 
会 比 Windows  XP 好 很 多 。 在 网 络 有 丢 包 的 情况 下 才 别 还 会 更 大 ， 因 为 
Windows XP 比 Windows 7 更 容易 们 到 超时 重 传 。 
尝 见 问题 2: 利用 Windows Explorer 从 CIFS 共 享 上 复制 文件 ， 为 什么 
Robocopy 和 EMCopy 之 类 的 工具 慢 很 多 ? 

答案 : 如 有 果 复 制 一 个 大 文件 可 能 是 看 不 出 差别 的 ， 但 如 果 是 复制 一 

包含 大 量 小 文件 的 目录 ， 的 人 确 是 比 这 些 工具 慢 很 多 。 这 是 因为 
i Explorer 是 逐个 文件 复制 的 〈 单 线程 ) ， 而 这 些 工 具 能 同时 复 
制 多 个 文件 〈 多 线程 ) 。 比 如 上 文 提 到 的 前 0.093 秒 里 虽然 交互 多 次 ， 
但 占用 市 宽 极 少 ， 多 个 文件 并 行 操 作 的 效率 会 局 很 多 。 下 面 两 个 图 十 
EMCopy 的 单线 程 和 双 线 程 复 制 同一 文件 夹 的 结果 ， 后 者 明 旺 要 快 得 


多 。 


单线 程 的 复制 〈 见 图 15) : 
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图 15 


双 线程 的 复制 见 图 16， 
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图 16 


第 见 问题 3: 从 CIFS 共 孚 里 复制 一 个 文件 ， 然 后 烙 巾 到 同一 个 目录 里 ， 
为 什么 还 不 如 烙 巾 到 客户 剖 的 本 地 硬 盟 快 ? 


答案 : 前 者 需要 把 数据 从 服务 占 复 制 到 客户 器 的 内 存 里 ， 然 后 再 从 


户 问 的 内 存 写 到 服务 
里 ， 然 后 写 到 本 地 便 舟 


务 pind 闯 内 存 
作 ， 这 这 样 束 快 了 一 些 。 


| 107 10. 32, 106. Pe 10. 32; 2oo. a3 


e610. ‘32 106. 97 0: 32; oo 二 习 - 


i 


右上 ， 相 当 于 谈 + 写 两 个 操作 。 而 后 者 只 是 从 服 
， 相 当 于 网 络 上 只 有 读 操 
图 17 是 前 者 的 网 络 包 包 。 
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图 17 


SMB3 对 此 有 了 本 质 上 的 改进 ， 可 以 完全 实现 服务 右 端 的 本 地 复 
制 ， 这 样 前 者 反而 比 后 者 快 了 。 
第 见 问题 4: 在 CIFS 共 孚 上 勇 切 一 个 文件 ， 然 后 处 贴 到 同一 共 孚 的 子 目 
录 里 ， 为 什么 瓯 比 狂 贴 到 本 地 硬盘 快 呢 ? 

从 有 宁 : 在 相同 的 文件 系统 上 甬 切 、 粘 贴 ， 本 质 上 只 有 “rename” 操 
作 ， 并 没有 旋 和 写 ， 所 以 是 非常 快 的 。 请 看 网 18 的 抓 包 ， 访 操作 是 把 
abc.txt 草 切 到 一 个 叫 test 的 子 目 录 。 
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图 18 








常见 问题 5: 为 什么 在 Windows 7 上 启用 SMB2 之 后 ， 读 性 能 提高 了 很 多 ? 
答案 : 这 是 因为 SMB2 没有 SMB 那 么 鹃 喷 。 从 图 19 可 见 ， 旋 之 六 的 
伍 询 用 I ee rt 包 订 操 
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有 人 的 地 方 就 有 思 候 ， 有 思 怨 的 地 方 就 有 江湖 ， 开 圈 也 是 如 此 。 过 
去 十 几 年 里 ， 我 们 见证 了 摩托 罗拉 和 诺基亚 在 手机 行业 的 沉浮 ; 微软 和 
平 果 在 个 人 电脑 领域 的 苋 争 ; 还 有 Windows 和 Linux 操 作 系统 在 数据 中 
心 领 域 的 角逐 。 在 以 后 的 岁月 里 ， 不 知道 还 有 多 少 业 内 的 腥风血雨 等 看 
我 们 。 

俗话 说 内 行 看 门道 ， 外 行 看 热 间 。 作 为 技术 人 员 ， 我 们 能 看 到 的 明 
争 暗 斗 比 其 他 人 更 多 ， 其 至 能 从 协议 细节 中 看 到 蜗 手 过 招 的 汇 迹 。 比 如 
说 Windows 和 Linux 之 争 ， 也 能 体现 在 它们 的 共 圣 协议 CIFS 和 NFS 上 。 本 
书 之 前 已 经 分 别 解析 过 它们 的 工作 方式 ， 这 里 再 来 探讨 它们 的 历史 和 发 
展 趋势 。 

早期 CIFS 协 议 的 设计 比 NFS 洲 后 不 少 ， 其 至 可 以 看 到 一 些 “ 不 专 
业 ?” 的 痕迹 。 我 个 人 是 见 最 大 的 有 两 点 。 


。 早期 CIFS 协 议 非 常 哆 唆 ， 这 一 点 在 前 面 的 《 训 析 CIFS 协 议 》 一 
中 己 有 详解 。 比 如 打开 一 个 文件 之 前 苋 otto 
络 包 如 图 1 所 示 。 
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图 1 


。 早期 CIFS 协 议 的 读 写 操作 痢 是 同步 方式 的 。 如 图 2 所 示 ， 它 只 会 


在 收 


到 上 一 个 读 啊 应 (Read AndX Response) 之 后 ， 才 发 出 下 一 个 读 请 
求 (Read AndX Request) 。 这 种 方式 的 市 宽 利 用 率 很 低 ， 因 为 很 可 能 
TCP 及 送 窗 口 还 没有 用 宛 ， 一 个 操作 融 完 成 了 。CIFS 的 设计 人 员 当 时 可 


能 没有 考 碟 到 网 络 市 宽 的 快速 友 展 。 


Ns 二 [CE Destination Tirmme Protocol lnfe 





上 残 没 有 这 个 问题 ， 如 图 3 所 示 ， 多 个 读 请 求 被 一 起 友 
早期 的 NFS 上 就 没有 这 个 问题 ， 如 图 3 所 示 ， 多 个 读 请 求 被 一 起 发 
2 晶 . 已 IE 
出 去 了 (也 可 以 说 是 异步 的 ) 。 
Ns. STEE Destinatiom Tume Pratocol Infe 

13 10.32.106.139 10. 32.106,. G2 5. 直人 2 581 MFS V3 READ Call tcReply Im 292), FH:OX331352el1 offset:0 Len: 

ld 10.342,106.159 132.32.106.62 了 55. 考 闪 之 辣 中 日 NFS WY} READ Call Reply InN 152), FH:OxXS313281 Offset:l131072 

i152 10.32,106:62 40. 32.1406, 圭 59 了 5 .起 和 4 和 4 NFS V3 READ Reply (Call Im 14) Len:131i072 

292 10.32,.1906.62 -10.32.1085.159 -15.425442 NFS YW3 READ Reply CCcall In 工 3 Len:1i31072 

294 10:32,106.133 10,32.106, 062 15.4483389 NFSs V3 READ Call CReaply IN 446), FH:OX3531332€e1 Offset:262144 

205 10.32,106:159 10.32.106. 62 了 5 .直系 卫 由 二 习 NFS YW} READ Call Reply 工 门 SAB), 正明 :站 区 3 了 33332841 Offset:393216 


半 4 10. 32,.106.62 -10.32.106.159 415.49331 NFS YW3 READ Reply CCall Im 294) Len:131072 
348 10.32,106.62 -10.32.106.139 145.303637 NFS5 V3 READ Reply Ccall In 293) Len:38076 


邓 好 CIFS 很 快 就 回 NFS 学 习 ， 等 到 Windows 7 出 来 的 时 候 ， 这 两 个 
问题 都 解决 了。 当然 早期 的 NFS 协 议 也 有 落后 的 地 方 ， 比 如 对 文件 属性 
的 管理 过 于 简单。 但 到 了 NEFSv4 面 世 的 时 候 ， 也 已 经 和 CIFS 趋 同 了 。 这 
些 江湖 上 暗 斗 只 有 专业 人 士 才 能 感觉 到 。 

竞争 往往 能 激发 意 想 不 到 的 创造 力 ， 这 两 个 协议 的 新 特性 就 是 如 此 
产生 的 。 无 论 是 早期 的 CIFS 还 是 NFS， 每 个 操作 都 是 在 各 自 的 网 络 包 中 
完成 的 。 即 便 不 太 罗 嗓 的 NFS 协 议 在 读 一 个 文件 之 前 ， 也 需要 通过 
READDIRPLUS 操 作 获得 其 File Handle (FH) ， 再 通过 GETATTR 操 作 
获得 该 File Handle 的 属性 ， 最 后 通过 ACCESS 和 READ 操 作 打开 文件 。 图 
4 显示 了 READ 之 前 的 三 个 操作 至 少 花费 了 三 个 RTT (往返 时 间 ) 。 
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13 1032.106;159 10.32.106:62 15.402 581 NFS’” V3 READ Call (Reply In 292), FH: Ox531352e1 Offset: 0 Len: 1 
工业 .10.432.106.159 .10.32.106.62 15:402600 NFS V3 READ call {Reply In 152}, FH: Ox531352e1 offset: 4072 Len 


图 4 


相 比 起 CIFS， 这 已 经 可 以 算是 极 简 主义 了 。 不 过 NFSv4 中 叉 提 出 了 
一 个 全 新 的 理念 ， 称 为 “COMPUND CALL”( 复 合 请 求 )。 客 户 端 可 以 
把 多 个 请 求 放 在 一 个 包 中 及 给 服务 硕 ， 然 后 服务 硕 也 在 一 个 包 中 集中 回 
复 ， 这 样 就 能 在 一 个 往返 时 间 里 完成 多 项 操作 了 。 

道理 听 起 来 似乎 很 简单 ， 但 真正 做 起 来 并 不 容易 。 以 图 4 中 的 
READDIRPLUS + GETATTR + ACCESS + READ 为 例 ， 如 果 用 
COMPUND 方 式 ， 发 送 方 在 没有 收 到 READDIRPLUS 回 复 之 前 ， 怎 么 知 
道 GETATTR 操 作 应 该 指定 什么 File Handle 呢 ?NFSv4 用 了 类 似 编程 时 用 
到 的 “变量 ”思维 来 实现 ， 首 先是 READDIRPLUS 操 作 所 得 到 的 File 
Handle 被 作为 变量 传 给 GETATTR 请 求 ， 接着 GETATTR 操 作 得 到 的 文件 
属性 叉 传 给 ACCESS 和 READ。 和 变量 的 传递 完全 发 生 在 服务 器 问 ， 所 以 
客户 端 不 需要 参与 ， 也 惑 没有 来 回 发 包 的 需要 。 

图 5 是 一 个 包含 了 7 个 操作 请 求 的 NFSv4 包 ，COMPUND 方 式 对 效率 
的 提高 幅度 由 此 可 见 一 斑 。 我 认为 这 个 写 路 值得 很 多 应 用 层 协 议 参 施 。 
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图 5 


说 完 NFS 的 最 新 进展 ， 我 们 再 回头 看 看 CIFS 已 经 有 友 展 成 什么 样 了 。 
虽说 现在 的 微软 已 经 没有 当年 风光 了 ， 但 是 在 对 CIFS 协 议 的 改进 上 ， 缀 
对 称 得 上 亮丽 的 一 笔 ， 在 我 看 来 已 经 远 远 把 NFS 抛 到 脑 后 了 。 在 
Windows 8 和 Windows 2012 所 文 持 的 最 新 CIFS 版 本 SMB3 上 ， 出 现 了 很 
多 适应 当前 需求 的 车 命 性 创新 。 

不 知道 你 是 否 记得 《 放 析 CIFS 协议 》 一 文中 提 到 的 “第 见 问 题 3 及 
其 答案 ?” 当 我 通过 CIFS 复 制 abctxt， 然 后 粘贴 到 同一 目录 生成 abc- 
Copy.txt 时 ， 网 络 包 如 图 6 所 示 。 
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图 6 


这 说 明 复 制 粘 贴 过 程 实际 是 这 样 的 。 

1. 客户 闹 发 送 读 请 求 给 服务 莫 。 

2. 服务 喜 把 文件 内 容 回 复 给 客户 器 〈 这 些 文 件 内 容 被 暂时 存在 客 
尸 问 内 存 中 ) 。 

3. 客户 疹 把 内 存 中 的 文件 内 容 写 到 服务 右上 的 新 文件 abc-Copy.txt 
中 。 

4， 服 务 耸 确认 与 操作 完成 。 

在 这 个 过 程 中 ， 文 件 内 容 通过 第 2 步 和 第 3 步 在 网 络 上 来 回 跑 了 两 
次 ， 是 很 浪费 币 宽 资源 的 。 为 此 SMB3 设 计 了 一 个 叫 “Offload Data 
Transfer 的 功能 ， 能 够 把 过 程 变 成 这 样 。 

1. 客户 问 回 服务 器 发 送 复 制 请 求 。 
服务 器 给 了 客户 闹 一 张 token。 
客户 端 利 用 这 张 token 给 服务 器 发 写 请 求 。 
服务 器 投 要 求 与 新 文件 。 
.服务 需 告 诉 客户 闪 复制 已 经 完成 
图 7 显示 了 这 两 种 复制 方式 的 益 别 ， 实 心 第 头 表 示 文 件 内 容 的 沉 
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图 7 


可 见 在 SMB3 的 复制 过 程 中 ， 我 们 只 是 在 网 络 上 传输 了 一 些 指 令 ， 
而 文件 内 容 并 没有 出 现在 网 络 上 ， 因 为 复制 数据 完全 由 服务 器 上 自己 完成 
了 。 假 如 是 复制 一 个 大 文件 ， 那 对 性 能 的 提升 幅度 是 非常 可 观 的 ， 你 其 
至 可 以 在 数秒 钟 里 复制 几 个 GB 的 数据 ， 远 超 网 络 的 瓶 贷 。 在 虚拟 化 的 
应 用 场合 中 ， 通 过 这 个 机 制 元 隆 一 台 虚 拟 机 也 可 以 变 得 很 快 。SMB3 的 
另 一 个 破 天 死 改进 是 在 CIFS 层 实现 了 负载 均衡 。 与 其 他 CIFS 乒 本 不 
同 ， 一 个 SMB3 Session 可 以 基于 多 个 TCP 连 接 。 如 图 8 所 示 ，Windows 8 
服务 器 上 的 两 个 网 卡 ， 可 以 分 别 和 文件 服务 器 上 的 两 个 网 卡 建 并 TCP 连 
接 ， 然 后 一 个 SMB3 Session 承 基 于 这 两 个 连接 之 上 。 当 其 中 一 个 TCP 连 
接 出 现 故 障 ， 比 如 网 卡 坏 挥 时 ，SMB3 连 接 还 可 以 继续 存在 。 





ICP Session | TCP Session 2 


个 SMB Session 





考虑 到 现在 全 球 化 的 大 公司 越 来 越 多 ， 有 了 很 多 总 部 和 分 部 ， 上 所 以 
远 距 离 的 文件 传输 就 成 了 大 问题 。 比 如 说 ， 中 国 总 部 的 机 房 中 存在 一 个 
大 文件 ， 从 澳大利亚 分 部 访问 该 文件 是 非常 慢 的 。 尤 其 是 当 分 部 中 有 很 
多 用 户 需 要 访问 同一 个 文件 时 ， 相 同 的 内 容 束 需要 在 有 限 的 带宽 中 传输 
多 次 。SMB3 提 出 了 一 个 叫 BranchCache 的 机 制 来 解决 这 个 问题 。 当 澳 大 
利 亚 分 部 的 第 ee rd tne 然后 驶 家 
绥 存 起 来 《比如 存 到 分 部 的 专用 服务 。 接 下 来 澳大利亚 分 部 如 采 


有 其 他 用 户 访问 诅 文 件 ， 束 可 以 通过 文件 签名 从 缓存 服务 项 上 找到 了 。 

这 个 机 制 听 上 去 有 点 “ 脑 调 大 开 ?” 的 意思 ， 不 过 我 在 实验 宇 中 实施 过 
这 个 功能 ， 用 户 体验 还 是 非 章 好 的 ， 当 然 也 增加 了 实施 和 购买 专用 服务 
厚 的 开 文 。 

最 后 不 得 不 提 的 是 SMB3 的 一 个 “Continuous Availability” 特 性 。 以 前 
很 多 厂商 的 文件 服务 器 写 称 支持 Active/Standby 当前 待机 〉 模式 ， 即 
文件 服务 器 的 两 个 机 头 共 至 便 盘 ， 当 一 个 机 头 宕 机 时 ， 能 即时 切换 到 每 
机 的 机 头 上 。“ 即 时 ?这 个 词 实际 上 是 有 虚假 宣传 嫌疑 的 ， 因 为 SMB3 之 
前 的 CIFS 厂 本 把 文件 锁 之 美的 信息 放 在 机 头 的 内 存 中 ， 新 的 机 头 起 来 时 
无 法 获得 这 些 信 息 ， 所 以 是 没 办 法 无 颖 地 提供 访问 的 ， 必 须 让 客户 端 重 
新 访问 一 次 。 

SMB3 对 此 的 解决 方案 是 把 文件 锁 之 类 的 信息 存 到 便 盘 上 ， 上 所 以 新 
机 头 起 来 时 便 可 以 获得 这 些 信 息 ， 这 样 ， 提 供 无 颖 服务 束 成 了 一 种 可 
能 。 为 了 方便 理解 ， 我 也 做 了 一 个 示 症 图 ， 如 网 9 所 示 。 





图 9 


1. Windows 8 客户 山 通 过 机 头 1 访 问 文 件 ， 生 成 的 文件 锁 等 信息 被 
保存 在 便 检 中 。 

2. 机 头 1 有 发 生 故 障 ， 切 换 到 机 头 2 上 ， 机 头 2 从 便 往 中 获取 信息 。 

3. Windows 8 仍然 能 锁定 该 文件 ， 因 为 机 头 2 继承 了 机 头 1 的 信息 。 


DNS 小 科普 


有 一 些 技 术 ， 人 们 即便 每 天 都 在 使 用 ， 也 未 必 能 意识 到 它 的 存在 。 

DNS 束 是 这 样 一 种 技术 。 当 我 在 浏览 右上 输入 一 个 域名 时 ， 比 如 
www.example.com， 其 实 不 是 根据 该 域名 直接 找到 服务 费 ， 而 是 先 用 
DNS 解析 成 了 地 址 ， 再 通过 IP 地 址 找到 服务 左 。 有 时 候 甚 至 不 用 输入 任 
何 域名 ， 也 会 在 不 知 不 觉 间 用 到 DNS。 比 如 打开 公司 电脑 ， 用 域 账 号 登 
孙 操 作 系 统 ， 束 是 依靠 DNS 找到 Domain Controller 来 验证 映 份 。 坚 不 从 
张 地 说 ， 如 果 有 一 天 突然 失去 DNS， 世 界 会 立即 陷入 混乱 。 

我 家 里 的 笔记 本 IP 为 192.168.1.101，DNS 服 务 器 IP 为 
106.186.28.239。 如 果 在 打开 www.example.com 的 过 程 中 抓 了 包 ， 就 能 看 
到 图 1 所 示 的 解析 过 程 。 
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图 1 





笔记 本 : “请 问 www.example.com 的 A 记录 是 什么 ?” 

服务 器 :“ 是 93.184.216.119。” 

获得 IP 之 后 ， 笔 记 本 就 可 以 和 93.184.216.119 建 立 HTTP 连 接 了 。 这 
个 例子 中 提 到 的 A (Address) 记录 ， 指 的 是 从 域名 解析 到 IP 地 址 。 如 果 
你 经 党 处 理 DNS 包 ， 还 会 看 到 不 少 其 他 类 型 的 记录 。 


。PTR 记 录 : 与 A 记录 的 功能 相反 ， 它 能 从 IP 地 址 解析 a 到 域名 。PTR 
有 什么 作用 呢 ? 比如 IT 部 门 发 现 最 近 公 司 里 的 机 需 10.32.106.47 和 
YouTube 之 间 数 据 流量 很 大 ， 用 nslookup 一 查 PTR 记 录 束 知道 原来 是 阿 
满 在 上 班 时 间 丛 看 视频 了 〈 见 图 2) 。 
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47.106.32.10.1in—addr.arpa 
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TA ( 见 图 3) : 
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图 3 






* SRV 记录 : Windows 的 域 管 理 员 要 特别 关心 SRV 记 录 ， 因 为 它 指 癌 
域 里 的 资源 。 比 如 我 想 知 道 我 们 公司 的 域 nas.com 里 有 哪些 DC， 只 要 随 
便 在 一 台电 脑 上 查询 _ldap._tcp.dc._msdcs.nas.com 这 个 SRV 记 录 就 可 以 


了 。 如 果 你 也 想 查 贵 司 的 DC， 请 把 nas.com 改 成 正确 域名 即 可 。 图 4 是 查 
启 过 程 的 截图 。 
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CNAME 记 录 : 又 称 为 Alias 记 录 ， 就 是 别名 的 意思 。 比 如 我 的 服务 
器 10.32.106.73 同 时 提供 网 页 (www) 、 邮 件 Cmail) 和 地 图 (map) 服 
务 。 图 6 是 该 服务 需 在 DNS 中 的 配置 ， 其 中 www 的 A 记 录 指 癌 了 
10.32.106.73， 还 有 两 个 别名 记录 mail 和 map 指 向 了 www。 客 户 端 访问 这 
3 个 域名 时 ， 都 会 被 定 同 到 10.32.106.73 上 面 。 
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别名 是 如 何 起 作用 的 呢 ?” 当 客户 并 查询 mail.nas.com 或 者 
map.nas.com 时 ，DNS 服 务 左 通过 www.nas.com 找 到 10.32.106.73， 然 后 
把 结 末 返回 给 客户 病 。 图 7 是 访问 mailnas.com 时 抓 的 包 。 
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那 直接 把 10.32.106.73 配 给 mail 和 map 可 以 吗 ? 当然 是 可 以 的 ， 但 如 
果菜 天 要 改变 这 个 IP 地 址 ， 束 不 得 不 在 DNS 上 修改 www、mail 和 map 这 3 
项 记录 了 。 而 在 使 用 别名 的 情况 下 ， 只 要 修改 www 一 项 的 IP 就 行 了 ， 
mail 和 map 都 没有 必要 改动 。 别 名 的 使 用 节省 了 管理 时 间 ， 站 长 们 应 议 
会 喜欢 这 个 功能 。 

了 解 完 DNS 的 基本 功能 之 后 ， 我 们 再 来 看 看 它 的 工作 方式 。 

刚才 说 到 我 的 笔记 本 在 解析 www.example.com 时 用 到 了 DNS 服务 器 
106.186.28.239。 其 实 这 台 服 务 医 非常 可 疑 ， 因 为 我 仁 到 它 属 于 美国 一 
家 私有 云 提供 商 ， 不 知道 通过 什么 方式 配 到 我 电脑 上 的 。 世 界 上 还 有 很 
多 这 样 不 权威 的 DNS 服务 器 ， 就 连 电 信和 有 线 通 等 宽带 提供 商 的 DNS 服 
务 占 也 是 不 权威 的 。 所 谓 “ 不 权威 ”"， 并 不 是 指 它 们 一 定 不 值得 信任 ， 而 
是 因为 它们 本 时 不 包含 DNS 的 注册 信息 。 当 收 到 新 的 DNS 人 查询 时 ， 它 们 
要 从 权威 DNS 服务 器 〈 属 于 一 个 叫 ICANN 的 非 营利 性 组 织 ) 那里 查 到 结 
果 ， 然 后 再 返回 给 客户 端 。 

从 本 文 的 第 一 个 抓 包 中 ， 我 们 只 知道 不 权威 DNS 服务 喜 成 功 解析 了 
www. example.com， 却 不 知道 它 是 怎么 做 到 的 。 有 可 能 是 它 收 到 我 的 请 


求 之 后 ， 悄 悄 地 查询 了 权威 DNS 服 务 器 ， 然 后 告诉 我 答案 。 这 种 工作 方 
式 称 为 递归 但 询 ， 其 特点 是 客户 闹 〈 我 的 笔 elah 完全 依赖 服务 嚣 〈( 那 
台 可 疑 的 DNS 服 务 嚣 〉 和 直接 返回 结 
ST ea 其 特点 是 ee 
到 根 服 务 器 的 地 址 ， 再 从 根 服 务 右 查 到 权威 服务 器 ， 然 后 从 权威 服务 
有 下 到 返回 想 要 的 结果 。 四 gilded 
站 采用 友 代 得 询 。 图 8 残 是 查询 的 整个 过 程 。 可 见 迭 代 得 询 要 比 递归 奉 
询 麻 怖 得 多 ， 但 最 后 解析 到 的 Mov 一 致 的 。 
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i .gt d=Eer vere. net. | hinana seneraNIPNLSS .4 13. 
dot 1dryvers et < 

kgt ld=eerversepnet 

本 电 一 硬 各 和 FE 。 

,Et Ld=e 看 面 让 - 

| .5 计生 自作 = 者 年 卫 秆 区 及 量 - 曾 本 本 坟 】 星 而 蕊 由 千 二 妆 








Bl 。 忆 再 击 。 2 LH 二 二 画 本 而 一 旧 硬 六 让 盏 六 二 = 而 看 也。 
WHA .Eom 时 本 种 工 村 人 bh, mm se ry net ; 
HE 正 二 CR 半生 芝 - 王 本 -时 二 -本 稳重 司 于 民 百 -可 琵 了 二 一 下 下 号 二 关节 本 = 而 天 老 为 间 而 村 疙 让 


胡 忆 志 欠 到 is 2 十 询 到 
I #668 [NM 站 EE We. eample ComAYIPSs L184.216. 119 
| net = 下 
BE = 


有 是 ;, 生 而 丁丁 一 甩 丰 于 相 天 入 本 - 
| 3 1728 有 昧 .。 竹 击 而 轴 一 庆生 藤 直 古寺 。 
i Mac Le 生 妄 。 是 六 E 二 二 rf a 明寺 3 。 i 由 地 丙 量 一 计 硬 村 世面 怕 帝 s 各 十 取水 | 业 而 “ 寺 生 二 局 坏 


图 8 


这 个 迭代 查询 的 网 络 包 如 图 9 所 示 。 从 中 可 以 看 到 笔记 本 
192.168.1.101 发 出 了 7 个 查询 ， 才 得 到 最 终 的 结果 。 








如 朱 这 两 个 抓 包 还 不 足以 说 明 递 归 和 迭代 的 差 列 ， 我 们 可 以 用 生活 
中 的 例子 来 类 比 。 


过 归 查询 ”: 老板 给 我 及 个 短信 :“ 阿 满 ， 附 近 哪 个 川 杀 人 馆 最 正 
未 ? ”我 屁 项 屁 其 地 去 问 我 的 吧 货 朋 到 二 胖 ， 二 翌 广 问 了 他 的 女友 州 妹 
本 ， 鳞 子 所管 娄 生 证 一 胖 ， 二 胖 绸 香 诉 我 ， 了 最 后 我 痛 作 很 专业 的 样子 
回复 了 和 老板。 这 个 过 程 对 老板 来 说 融 是 递归 碍 询 。 


” 友 代 碍 询 : 老板 说 :“ 阿 满 ， 推 荐 一 下 附近 的 洗 脚 店 呐 ? ”我 立即 
严 嫩 拒 绝 :“ 这 个 我 不 知 违 ， 不 过 你 可 以 问 问 公 天 部 的 张 忌 。 TL 
到 张 恕 ， 义 被 指引 到 铀 售 部 的 小 衬 ， 最 终 从 小 至 那里 问 到 了 。 这 个 过 程 
束 是 适 代 碍 询 ， 因 为 是 老板 目 己 一 步 一 步 地 奏 到 答 守 


说 完 DNS 的 工作 方式 ， 我 们 再 来 认识 它 的 一 个 很 有 用 的 特性 。 我 的 
DNS 中 有 两 个 叫 “Isilon-Cluster” 的 同名 A 记 录 ， 分 别 对 应 着 了 地 址 
10.32.106.51 和 10.32.106.52。 当 我 连续 执行 两 次 “nslookup Isilon- 
Cluster.nas.com>” 时 ， 抓 到 的 网 络 包 如 图 10 所 示 。 


Noa, Sp Des Ti Protc 
1 10. 了 de ed 10. 32. 106, 站 15: 12: 33 DNS Scanda rd QUE JUETY A Isilon-clu 5ter, Nas. Com 





图 10 


可 见 两 次 返回 的 人 P 地 址 是 一 样 的 ， 但 顺序 却 是 相反 的 。 如 末 我 执行 
第 三 次 nslookup， 结 果 又 会 跟 第 一 次 一 样 ， 这 了 吏 是 DNS 的 循环 工作 
(round-robin) 模式 。 这 个 特性 可 以 广泛 应 用 于 负载 均衡 。 比 如 某 个 网 


站 有 10 台 Web 服 务 器 ， 管 理 员 残 可 以 在 DNS 里 创建 10 个 同名 记录 指 同 这 
些 服务 器 的 卫 。 由 于 不 同 客户 端 查 到 的 结果 顺序 不 同 ， 而 且 一 般 会 选用 
结 末 中 的 第 一 个 耻 ， 上 所 以 大 量 客户 姗 吏 会 裤 均 街 地 分 配 到 10 人 台 Web 服 务 
右上 。 随 着 分 布 式 系统 的 流行 ， 这 个 特性 的 应 用 场景 将 会 越 来 越 多 ， 比 
如 本 例 中 的 分 布 式 存储 设备 Isilon。 

说 了 这 么 多 DNS 的 好 话 ， 那 它 有 没有 人 缺点 昵 ? 当然 有 ， 而 且 还 不 


NS 


少 。 


。 就 像 雕 脾 洗 衣 粉 外 周 佳 牌 模仿 一 样 ，DNS 上 也 存在 山 符 域名 。 比 
如 招商 银行 的 域名 是 www.cmbchina.com， 但 是 www.cmbchina.com.cn 和 和 
www.cmbchina.cn 却 不 一 定 属于 招行 。 如 果 这 两 个 域名 被 指 癌 外 表 和 招 
行 一 样 的 钓鱼 网 站 ， 束 可 能 会 骗 到 部 分 用 户 的 银行 账号 和 和 守 人 码 。 


。 如 条 DNS 服务 器 被 恶意 修改 也 是 很 危险 的 事情 。 比 如 登录 招行 网 
站 时 虽然 用 了 正确 域名 www.cmbchina.com， 但 由 于 DNS 服务 器 是 黑客 
控制 的 ， 很 可 能 解析 到 一 个 钓鱼 网 站 的 卫 。 


。 即便 是 配 了 正规 的 DNS 服务 器 ， 也 是 有 可 能 中 招 的 。 比 如 正规 的 
DNS 服务 套间 过 绥 剖 投 毒 之 后 ， 也 会 变 得 不 可 信 。 


。 DNS 除 了 能 用 来 欺骗 ， 还 能 当做 攻击 性 武器 。 著 名 的 DNS 放 大 攻 
击 怠 很 让 人 头疼 。 和 下面 是 我 在 执行 “dig ANY isc.org”( 解 析 isc.org 的 所 
有 信息 ) 时 抓 的 包 ， 可 见 6 号 包 发 出 去 的 请 求 只 有 25 字 节 《〈 见 网 11 撒 部 
的 Length: 25) ， 而 11 号 包 收 到 的 回复 却 能 达到 3111 字 有 《〈 见 图 12 撒 部 
的 Length 3111) ， 葛 然 放 大 了 124 倍 。 










No, SGUreE Destinatron Tirme Protocol Infe 
G6192,.168.1.101 106.186.2B.239 18:20:05 DNS standard query ANY isc.org 

11 106,.186.28.239 192.168.1.101 18:20:05 DNS standard query response RRSIG SPF RRSIG 
ee eee——ssmmmeeeee 
I Frame 6&6: 81 bytes on wire (648 bitsy), 81 bytes captured (C648 bitsy 

Ethernet II; Sre: do0:0f:9a:cf :88:30 Cd0:df: 9a:cTt :88:30); Dst: 3C:B3:bf 71c:4c C3C:63:b 
加 Internet Protocol,; srcec: 192.168.1.1014 (92.168.1.101), Dst: 106.186.28.239 (106.196. 29.2 
HTransmlssion Control Protocol, sre Port: 56344 C56344), DsSt Port: domain (53), Seg: 1, A 
ES Domain Name System (quer'y 


[Response IN: 111 


Lenogth: 25 





图 11 


No, Source Destination Time Protocol Infto 
6 192.168.1.101 -106.186.28.239 18:20:053 DNs standard guery ANY isc.org 
11 106.186.28.239 192.168.1.101 1i8:20:05 DNS standard query response RRSIG SPF 


4 | 


| 田 Frame Ti1: 347 bytes on wire C27r6 bits}, 347 bytes captured (27r76 bitsy 

田 ECherner IIT, Sre: SC:63:bBf:71:1c:4c C3C:63:bf 71i:1ic:4cy DST: dO:df 9a:cf:88:30 (re 
田 INMternet Protocol,: Sre: 1Ub.186. 28.239 (LU6.186. 28. £393), DSst: 192.108.1.101 (Ly2.] 
田 Transmission Control pretocol, src Port: domain (53), Dst Port: 56344 C36344), Ser 
田 [3 Reassembled TCP segments (C3113 bytes): #801410), #3410)， 1(293)] 

EDomain Name System (response 





[Time: 0D.208387000 seconds] 
Length: 3111 


图 12 


假如 在 6 号 包 里 伪造 一 个 想 要 攻击 的 源 地 址 ， 那 该 地 址 束 会 更 名 收 
31DNS 服 务 颖 3111 字 节 的 回复 。 利 用 这 个 放大 效应 ， 黑 客 只 要 控制 少量 
电脑 束 能 把 一 个 大 网 站 拖 震 了 。 


一 个 古老 的 协议 一 FTP 


你 也 许 难 以 想象 ，FTP 协 议 在 1971 年 就 出 现 了 。 在 那 时 ， 现 代 的 网 
络 模型 还 没有 形成 ， 所 以 FTP 完 全 称 得 上 网 络 界 的 活化 石 。 

它 的 发 明 人 也 很 有 意思 ， 是 印度 工程 师 Abhay Bhushan。 要 知道 早 
期 的 网 络 协议 起 于 着 几乎 是 清一色 的 欧美 工程 师 ，Bhushan 能 够 占 得 一 
记 之 地 绝对 称 得 上 传奇 。 虽然 看 起 来 文 质 梢 彬 ， 但 实际 上 Bhushan 热 爱 
运动 ， 尤 其 擅长 马拉松 和 铁人 三 项 〈 我 印象 中 计算 机 科学 之 父 Alan 
Turing 也 是 位 长 跑 健 将 ) 。 

一 个 上 古老 的 协议 能 有 如 此 活力 ， 一 定 是 天 深层 原因 的 。FTP 的 过 人 
之 处 ， 就 在 于 它 用 最 简单 的 方式 实现 了 文件 的 传输 一 客户 奖 只 需要 输入 
用 户 名 和 密码 ， 束 可 以 和 服务 占 互 传 文件 了 ; 有 的 其 至 连用 户 名 和 密 位 
都 不 用 《匿名 FTP) 。FTP 第 被 用 来 传播 文件 ， 尤 其 是 免费 软件 ， 另 一 
个 广泛 应 用 是 厅 集 日 志 ， 我 们 可 以 让 服务 占 发 生 故 障 之 后 ， 目 动 通 过 
FTP 把 日 志 传 回 厂商 。 这 些 场合 之 所 以 适合 FTP 而 不 是 NFS 或 者 CIFS， 
束 是 因为 它 实 现 起 来 更 加 人 简 持 。 

一 个 软件 使 用 起 来 简单 ， 并 不 意味 着 它 的 撒 层 设计 也 很 简单 。 如 末 
你 抓 了 一 个 FTP 的 网 络 包 ， 乍 一 看 会 觉得 非 党 复杂， 尤其 是 在 靖 口 亏 的 
管理 上 。 在 我 的 实 验 室 中 ， 我 从 Windows 和 客户 关 登录 了 一 次 FTP 服 务 
和 右 ， 然 后 下 载 了 一 个 叫 linpeiman.txt 的 文件 。 我 们 先 来 看 看 登录 的 过 程 
( 见 图 1) 。 


Administrator: CVWindowslsystem32aN\cmd,exe 


C:\>ftp 10.32.106.112 

Connected to 10.32.106 

220 server 521 seruer ‘tie -SNAS: 8.1.1.33) ready. 
User (18.32.1068.112:(none}}: linpeiman 


31 Password ea for linpeliman. 
Password : 
G3 UNTA User linpeiman logged 1n. 





接 下 来 看 看 登录 过 程 的 网 络 包 ， 前 三 个 包 无 需 解 机 《〈 见 图 2) ， 整 
是 由 客 尸 闹 友 起 的 三 多 握手。 唯一 值得 记 住 的 是 FTP 服 务 闪 的 控制 端口 
21。 


Ns, Source Destinatton Tim Protocol Info 
1 9 32. a 4 10. 32. 汪汪 二 2014- 3 EE 玉生 Ss 5 TCP 站 Es SE 本 Rt ss | sl 





| Frame 1: 6 byres on Wire (5328 bits ); G6 bytes 0 C328 bitsy 
39:28 


9 l 
四 Inter met as Yersion 半 ， Sre: 10. 32, 200, i 32， 200. Ee Dst: 10. 32. 106. 112 ee Er 106. 112) 
smission Conrol Prorocol, src POrT: 53431 (C53431), DstT Fort: fp (C21), seq:; 0, Len: 





现在 来 分 析 5、 7、8、10、 11 号 包 的 过 程 〈 见 图 3) 。 


ur protoeol fo 
5 10. 32- 106: 112 10.32.200.41 2014-06-12 10:00:40 FTPF Response: 220 server 2 FTP server (EMC-SNAS: BB.1.1.33) ready 
T1032. 200.41 J0.32.106.112 2014-006-J2 190:00:;42 FTP I USER Tinpeimamn 
B10. 32. 106- 112 10.32-200-41 -2014-66-12 10:00:42 FTP Response: 331 Fassword required 十 or linpeiman. 

10 10. 32.200.41 10.32.106.112 2014-06-J2 10:00:45 FTP ES PASS J234S56 

开工 10. 32.106.112 10.32.200.41 2014-06-12 10:00:45 FTP Response: 2340 UNIX Us linpeiman logged in. 


图 3 











5 号 包 : 

服务 器 : “我 准备 好 接受 访问 啦 ， 顺 便 说 一 下 我 是 一 台 EMC 公 司 的 
仓储， 版 本 写 8.1.1.33。” 

7 号 包 ,; 

各 户 痪 : “我 想 以 用 户 名 linpeiman 登 录 。?” 

8 号 包 : 

服务 器 :“ 那 你 把 linpeimnan 的 密码 告诉 我 。” 

10 号 包 : 

客户 端 :“ 黎 但 是 123456。” 

11 气 包 : 

服务 器 : “密码 正确 ，linpeiman 登 录 成 功 。” 

从 以 上 分 析 可 见 ，FTP 和 是 用 明文 传输 的 ， 连 我 的 冤 但 123456 痢 可 以 
航 Wireshark 解 析出 来 。 如 果 对 安全 的 要 求 非 党 高 ， 残 不 能 采用 这 种 方 
式 。 接 下 来 再 看 下 载 文 件 的 过 程 〈 见 图 4) 。 


ftp> get linpeiman. txt+ 

-B08 PORT command successful. [ 国 
158 OQpening RSCII mode data connection for ‘linpeiman. txt” (#8 bvtes]}. 
226 Transfer complete. 

ftp: #1 bytes recelved in .90Seconds #1.00kbytes/sec. 





现在 分 析 下 载 过 程 的 网 络 包 见 图 5〉。 


Ns, 所 Destination Tirme protocol lnfo 

13 140; 32. 200.41 -10.32.106,.112 3220414-06-12 10:00;31 FTP Request; PORT 10,32.200,41.20B.185 

14 10, 32.106.112 10.32.200.44 2014-06-12 10:00:51 FTF Responmnse': 200 PORT Comarnd suUceesstwyl. 

15 10.32-.200.41 10-.32.1065-112 2014-06-12 10:00:5] FTP Request: RETR Tinpeiman. txt 

22 10.32.106.112 10-.32.200.41 2014-06-12 10:00:51] FTP Response’: 150 Dpening ASCIT mde data Connectiom for “linpeimarn.txt" 
| | 滞 


图 5 


13 写 包 : 

客户 端 : “我 想 从 IP=10.32.200.41， 端 口 为 208x256+185=53433 连 接 
你 的 数据 端口 (公式 中 的 256 为 约定 好 的 单数 ) 

14 号 包 : 

服务 占 :“ 可 以 的 ， 我 同音 了 。 

15 写 包 : 

客户 站 :“ 那 我 想 下 载 文 件 linpeiman.txt。?” 

22 扎 包 : 

服务 左 : “给 你 传 了 。 

上 面 这 i 入 Sy 


No, ee es Time Protocol Info 





18 10. 32.106.112 10. 32.200. Al 2014-056-12 10:00: 51 TCp 下 ti data $3433 [ACk] Seq=1 ACk=1 Win=5655356 
工业 10.32.106.112 10.32.200.41 2014-06-12 10: eat ?1 FTP-DATA FTP Data: #1 . bytes 





21 10. .22 人 0 ,41 10. 32.106. 112 2014-06-12 10-.00. 51 TeP 53433 = 下 tp 一 -data [ACK] seq=1 Ack-43 Win=66304 





24 10.32.106,112 10.32.200.41 2014-06-12 10:00:51 TcPp ftp-data > 53433 [ACK] Seq-43 Ack=2 Min65536 


下 I 





区 Frame 19: 1Dr bytes on wire B56 bitsy, i107 bytes captured CB3G6 bits) 

I Etherner II，SFE: Cisco e3:a6:80 (Cec;:30:9 ;ee3:26:80), Dst: De1]_ HB :B028 CC:26:0a:608:BO0:28) 

| 由 Internet Prorocol Version 4, Src: 10:32.106.112 (10.32.106-112), Dst: 10.32.200.41 (10.32-.200.41) 
Transmission Control Protocol src port: ftp-data {20), Dst Port: S3433 53433), Seq: 1, Ack: 1, Len: #1 
| FTP Data [Life 15 tough. Wireshark makes 1t easy. rn 


图 6 


16、17、18 亏 包 也 是 三 次 握手 ， 不 过 这 次 发 起 者 是 FTP 服 务 吉 。 服 
务 髓 的 端口 号 采用 了 20， 客 户 闪 的 关口 则 为 之 前 协商 好 的 53433。 


19 三 包 : 

服务 硕 : “给 你 文件 内 容 〈 文 件 内 容 “Life is tough. Wireshark makes 
it easy.” 可 见于 图 6 中 的 压 部 ) 。” 

20、21、23、24 号 包 为 四 次 挥手 过 程 ， 表 示 数 据 传 输 结束 ，TCP 连 
接 关 闭 了 。 

从 以 上 分 析 可 见 ， 客 户 端 连接 FTP 服 务 器 的 21 端 口 仅 仅 是 为 了 传输 
控制 信息 ， 我 们 称 之 为 “控制 连接 ”。 当 需要 传输 数据 时 ， 台 重新 建立 一 
个 TCP 连 接 ， 我 们 称 之 为 “数据 连接 *。 随 看 文件 传输 结束 ， 这 个 数据 连 
接 束 目 动 关闭 了 。 不 但 在 下 载 文 件 时 如 些 ， 就 连 执 行 ls 命令 来 列举 文件 
时 ， 也 需要 新 建 一 个 数据 连接 。 在 我 看 来 这 不 是 一 种 高 效 的 方式 ， 因 为 
三 次 握手 和 四 次 挥手 束 用 挥 7 个 包 ， 而 ls 命令 的 请 求 和 啊 应 往往 只 需要 2 
个 包 ， 束 像 开 看 卡车 去 运 快速 一 样 不 经 济 。 图 7 显示 了 这 个 例子 的 两 个 


客 尸 端 


3343] = 


河 
绢 


控制 连接 ! pe 


3 3d 33 | 2U 


ls a i i i i i ss ss ss i i ns sl 


我 伦 了 很 长 时 间 来 思考 Bhushan 先 生 为 何 把 FTP 的 控制 连接 和 数据 
连接 分 开 “ 来， 不 过 至 今 还 是 不 能 领悟 。 我 唯一 能 想到 的 好 处 是 连接 分 
开 后 ， 束 有 机 会 在 路 由 需 上 把 控制 连接 的 优先 级 提高 ， 免 得 委 数 据 传 输 
影 号 了 控制 。 举 个 例子 ， 当 文件 下 载 到 一 半 时 我 们 突然 肥 悔 了 ， 融 可 以 
Abort (终止 ) 这 次 下 载 。 如 果 Abort 请 求 是 通过 优先 级 较 高 的 控制 连接 
及 大 的 ， 也 许 能 完成 得 更 加 及 时 。 当 然 我 的 猜测 可 能 是 销 的 ，20 世 纪 70 
年 代 的 路 由 需 也 许 根本 不 文 择优 先 级 。 


如 果 你 为 FTP 配 置 过 防火 墙 ， 还 会 友 现 这 种 方式 市 来 了 一 个 更 加 严 
庄 一 由 于 数据 连接 的 三 侈 握手 是 由 服务 占 病 主动 及 起 的 我 们 称 
之 为 主动 模式 ) ， 如 打 客 尸 蜗 的 防火 墙 阻挡 了 连接 请 求 ， 传 输 个 就 失败 
了 吗 ? 全 到 这 种 情况 时 ， 我 建议 你 试 一 下 FTP 的 被 劲 模式 。 图 8 是 在 衫 
动 模 式 下 抓 到 的 包 。 由 于 被 动 模 式 的 登录 过 程 和 主动 模式 一 样 ， 所 以 我 
们 从 如 录 后 开始 讲 起 。 








| protocol Infc 
24 ee ,32 106.107 10.32.106.112 2014-06-12 15:58;2& FTP Reguest;: PASV 
25 10.32.106.112 10.32.106.107 2014-06-12 15:59:28 FTP sponse; 227 Enmte 站 Sa e Mode (10,32,106,112,240,217) 
29 10. 32.106.107 10.32.106.112 2014-06-12 15:56:28 FTP Request: “RETR linpei 
30 10. 32.106.112 10.32.106.107 2014-06-12 15:58:28 FTP Response: 150 Open ng ee mode data connection for “linpeiman.txt 
4 | 





图 8 


24 写 包 : 

客户 问 :“ 我 想 用 被 动 模式 传输 数据 。” 

25 扎 包 : 

服务 器 : “你 可 以 连接 到 IP=10.32.106.112， 端 口号 为 
240x256+217=61657 (公式 中 的 256 为 约定 好 的 单数 ) 。” 

29 气 包 : 

和 客户 中: “我 息 下 载 jinpeiman.txzt。?” 

30 了 气 包 : 

dil 

上 面 这 i i 


Ma. EE Prora cl Infte 





台 10. 32. .106， 107 10. Es 106. 112 2014—06- 2 15: 5 日 ， 28 TEP 33001 = 616 57 [act Seq=1 ACk=1 Win=5s 56 Len-0 TSval= = 
31 10.32.106,112 10.32.106.107 2014-06-12 15:538;28FTP-DATAFTP Data; 40 byt 
32 40. 32.1406.107 i Ei ie 13: 2 TEP 和 天 61657 ee ACK=41 Wine5856 EE 2 





35 10. 32.106.112 rar 2z0314-06-12 15:58:28 TCP 616537 > 33001 [ACK] reraerr Ack=2 Win=65536 Len-0 TSVa 
| im 


10%5 bytes on wire CR48 bitsy) 





[再 nts), i106 Gytes 
ee I Src’: EmE_ 2710:58 (00:60:48:272:10:58), Dst: -Inte ee Sa ja tad:d6:9r:1T:02: 
区 Internet Protocol Yersion 4 Sree 10.32:106,112 C10,32.,106.112), 10.32.1065.107 Ce EE Te 107y 
ETransmisston Contral i src POrT: G1657 (C61657), OST POPT': nt (33001), seg: 1, Ack: 1, Len: #0 
| FTP Data CLife is tough. 出 haE makes it easy. “ny 


图 9 


26、27、28 号 包 是 数据 连接 的 三 次 握手 ， 可 见 这 一 次 由 客户 端 主动 
发 起 〈 所 以 对 服务 器 来 说 是 被 动 的) ， 连 接 的 服务 器 端口 为 之 前 协商 好 
的 61557。 


31、32、33、34、35 写 包 完 成 了 文件 内 容 的 传输 ， 然 后 天 闭 数据 连 
接 。 同 样 从 图 9 底部 可 以 见 到 该 文件 的 内 容 : Life is tough. Wireshark 
makes it easy. 

最 后 我 在 FIP 命令 信行 中 打 汪 个 “bye” 命令 (多 图 10) 、 


国 Adrmimistrator: CW me mmd,exE 








tpy bve 


:1 Goodbye. 
和 





图 10 


Goodbye 过 程 的 网 络 包 是 如 图 11 所 示 。 


Nio. SourCE Destinatto Protocol lnfo 
39 10.32.106.]107 pe 112 2 - 06-12 15:58:29 FTP Reguest: QUIT 
40 10.32.106.112 10.32.106.107 2014— 06- 12 15:58:29 FTP de 221 sad | 





42 10.32.106.107 10.32.106.112 2014-06-12 15:58:29 TCP 36115 > ftp [AcK] Seq-107 Ack-442 winr 





44 10.32.106.112 10.32.106.107 2014-06-12 15:58:29 TCP 人 SET PP a 


图 11 


39 写 包 : 

客户 病 : “我 要 退出 啦 。?” 

40 号 包 : 

服务 器 :“ 好 的 ，Goodbye!”(FTP 是 我 所 知道 最 讲 礼仪 的 协议 。) 

41、42、43、44 号 包 是 四 次 挥手 过 程 ， 断 开 控 制 连接 ， 完 成 了 一 次 
FTP 的 生命 周期 。 

你 也 许 想 问 ， 那 如 何 指定 客户 端 采 用 主动 还 是 航 动 模式 呢 ? 很 多 
FTP 客 户 端 软件 都 有 这 个 选项 。 比 如 图 12 是 WinSCP 上 的 截图 ， 选 中 
Passive mode 即 表示 被 动 模式 。 


本 WinSCP Login 


SESSON Cormecton 
:- Stoned eseione 
Logging 

Ermirorrmeril J | Optimzs connection buifer eize 
-.» [rectenes 
:.- Recydle bin Timeouts 
:.. SFTP Servar rspones trrasut: 

- SCPiIhall 
的 Hecpalves 
写 ) Of 
“Sending of null 55H packets 


“Exscutng Gumrry protocol commandsa 


Fasstre mode 


1 点 thermticaslion 
Preferenecee 


P= Fe - 
= 


Intsmet protocal varsion 
部 Au 


是 | Advanced opticns 


i 





图 12 


论 上 所 有 FTP 客 户 问 都 应 该 文 持 这 两 种 模式 ， 但 Windows 目 谤 的 
ftp 命 人 人 4 文 持 主 动 模 式 。 图 13 是 我 试图 采用 被 动 模 陈 的 命令 。 


2 Command Prompt 

1 

27 Entering Passive Mode «iH. 32, 1 ,111 和 和 

tp» ls linpeiman .txt 

BA PORT command successful. 

oH dpening PSCGIT mode data connection for file list’. 


linpeimnan .txt 

2b Transfer comnlete. 

th: 15 byutes received in BH.HHSeconds 15006 .00Khbutessec. 
to» bye 

21 Goodbye. 





图 13 


从 图 13 中 看 ， 当 我 输入 “quote pasv”* 命 令 时 ， 的 确 显 示 进 入 被 动 模式 
(Entering Passive Mode) 。 接 下 来 我 们 看 看 图 14 的 网 络 包 。12 写 和 13 
写 包 也 的 确 显 示 进 入 被 动 模 式 ， 但 是 再 接 下 来 的 网 络 包 却 完 全 征 主动 
模式 的 样子 。 


INa， Source Destination Time Protoecel . Infe 
12 10. 42.106.103 10. 32.106.112 2014-06=16 15:51:43 FTP REeAUESt: pasyv 
13 10,. 32.106.112 10,32.106,103 2014-06-16 15:51:43 FTP Response; 227 Eftering Fassive mode 10,32,105,112,218,184) 
1# 0. 42.106.103 10, 32.106,.112 2014-B6-16 15:51:43 TCP elatelink “ Ttp CACK] Seq=36 ABACK=]79 Win=2742 Len=0 TS5val=1 
15 406.32.106103 10,. 32.106.1i2 2014-0D6-16 135:31:d8 FTP Request; PORT 10,32;1065,103,8,B2 
16 10. 42.106.112 10,. 32.106.103 2014#-06-16 15:51:48 FIP Response: 200 PORT comand successtyl. 

| 17 4140.32-106-.103 10-.32-106-.1i1i2 2014-06-146 15:51:48 FTP Request: NLST 1i npeiman. 七 汇 世 
18 10.32.106.112 10.32.106.104 2014-06-16 15:51:48 和 En 2 > LSYN] sa dn Len- da EE 





a 10. 32.106.112 0. 32.106..103 201#4-06-16 15:51:4#8 TEP i 子 wdls [ACK] Seq-1 ACK=1 win n=-6 5536 Ler-0 ET | 
21 10. 32.106.112 10,32.106.103 2014-06-=16 15:51:48 FP Response: 150 Opening ASCIT mode data connection Tor ‘file 
22 10. 32.106.112 0.32.106.103 20i#-D6-16 15:51:4SFTP-DATAFTP Dara: 15 byres 
加 
= 在 ee bytes Captured 6 b ] 
Ethermet II, SrC: ra ET (OD:60:48:27:10;5EB), Dst: Vnware al: 8:41 CO0:50;56:al: :4) 
Intermet Protocol version #4, src: 10.32.106-112 (10.32.106.112Y, pst: 10.32-.14065.103 (10.32-1065.103) 


图 14 





+| 国 + 用 生 


4| 轩 





从 结果 看 ，12 号 和 13 亏 包 完 全 没有 起 作用 。 这 很 可 能 是 Windows 的 
一 个 bug， 我 在 Windows 7 和 Windows 2003 都 看 到 了 相同 的 结果 。 那 微软 
的 测试 部 门 为 什么 没有 有 发 现 呢 ? 如 果 没 有 用 Wireshark 来 抓 包 检查 ， 测 试 
reser 问题 的 ， 我 也 十 在 写 这 篇 文章 的 时 候 健 巧 看 到 。 从 

个 不 经 意 的 友 现 ， 孢 可 以 知道 Wireshark 的 价值 。 





上 网 的 学 问 


2012 年 7 月 27 日 ， 伦 致 奥运 会 开幕 式 上 ， 一 位 长 者 市 痢 上 世纪 才能 
见 到 的 老式 电脑 出 现 了 。 他 有 发布 了 一 条 推 秆 一 “This is for everyone”， 随 
即 显 示 在 体育 馆 的 大 屏幕 上 ， 传 再 世界 〈 见 图 1) 。 


HIIP 


Lal Tim Berners-Lee WB Follow 2" 





This 1s for everyone #london2012 #0oneweb 
:openingceremony webfoundation @w3c 
i Renly ty Renwael 二 Favorile 


10,113 1739 图 图 到 点 一 可 国 加 口 


图 1 


他 束 是 57 岁 的 Tim Berners-Lee 医 士 一 一 万 维 网 的 发 起 者 ， 也 是 第 一 
位 实现 HTTP 的 工程 师 。 瑞 国人 不 但 信 此 传播 了 开放 和 分 至 的 互联 网 精 
人 昼 ， 也 展示 了 其 在 开 历 史上 的 地 位 一 从 吏 定 现代 计算 机 基础 的 Alan 
Turing， 到 发 明 分 组 交换 的 Donald Davies， 再 到 万 维 网 之 父 Tim Berners- 
Lee， 每 一 个 重大 环节 都 有 灿 国 人 的 参与 。 假 如 北京 奥运 会 上 也 要 推出 
我 们 的 IT 界 代 表 人 物 ， 我 想 大 家 心中 已 有 合适 的 人 选 ， 他 也 可 以 在 人 台 上 
笑 试 友 一 条 推 愉 。 

Tim 所 实现 的 HTTP 便 是 我 们 今天 浏览 网 页 所 用 的 网 络 协 议 。 他 当年 
建立 的 网 站 至 今 还 能 访问 ， 域 名 为 http://info.cern.ch/。 虽 然 这 个 页 面 已 


经 更 新 过 ， 但 我 们 还 可 以 在 http:/www.w3.org/History/19921103- 
hypertext/hypertext/WWW/News/9201.html 看 到 当年 的 内 容 。 

HTTP 的 工作 方式 算 个 上 复 森 ， 先 由 客户 病 同 服务 颖 友 起 一 个 请 
求 ， 再 由 服务 务 回 复 一 个 啊 应 。 根 据 不 同 需要 ， 客 亡 妆 及 送 的 请 求 会 
用 到 不 同方 法 ， 有 GET、POST、PUT 和 HEAD 等 。 比 如 在 网 站 上 登录 账 
写 时 了 束 可 能 用 到 POST 方法 。 

我 在 打开 网 页 http:/www.rfc-editor.org/info/rfc2616 时 抓 了 包 ， 我 们 
就 以 此 为 例 ， 来 看 看 HTTP 是 如 何 工作 的 〈 见 图 2) 。 


本 Destinati T prat | [nt 


1 estinatiom ime ratocal [nfe 
1 192.168.1.103 64.170.38.47 2013-09-21 16:08:40 Tcp S4685 3 htrp [sw] segq=0 win=8192? Len=D mM 







4 | 
In Frame 1: G6 bytes ol wire (328 bits)s G6 bytes captured C328 bitsy 
| 国 Ethernet IL, src: LiteonTe cf:ga:30 (dg:df:9acf:se8:30), Dst: Tp-LinkT ?1:1cC:4c (5cC:63:bF:7L:1c:4cy 
-Internet Protocol Version 4 src: 192.158.1.103 (C192, 168,.1.103), Dst: 64.170.98,.47 (C64.170.98.47) 
1 smission Control protocol, Src Port: Sd6as (CSA4GE5), Dst port: hetp CaO, Se Len: 0 


| Transmise: ,Src port: Sd6as (S54685), Dst port: http a0), Seq: o 


ion Control protoco Len: 0 
图 2 














1. 由 于 HTTP 协 议 基 于 TCP， 所 以 上 来 束 古 三 次 握手 。 从 图 2 的 瓜 
部 可 以 看 到 ， 服 务 疾 的 端口 号 为 80。 

2. 在 图 3 中 ，4 号 包 是 客户 闹 同 服务 右 发 送 的 “GET /info/rfc2616 
HTTP1.1” 请 求 ， 即 通过 1.1 版 的 HTTP 协 议 ， 获 取 /info 目 录 里 的 rfc2616 文 
件 。 说 白 了 就 是 想 下 载 页 面 内 容 。 


5 
L 





Filtter bh [= | Expression.. Elear pply 





No. Source Destimatiom Time aa Lrfo 
本 192,1]69.1.103 64.170.98.47 1T6:05:40. 324093 HTTP GET Anfo/rfc2816 HTTP/L.1 





Se| 


7 号 包 是 服务 器 对 该 请 求 的 响应 ， 即 把 /inforfc2616 的 内 容 发 给 
各 户 靖 。 

4. 9 号 包 是 客户 端 向 服务 器 请 求 <GET /style/rfc-editor.css”。 该 css 文 
件 定 义 了 页 面 的 格式 。 

5. 11 号 包 是 服务 需 对 该 请 求 的 啊 应 ， 把 /style/rfc-editor.css 的 内 容 发 
给 客户 闯 。 

就 这 样 ， 客 户 端 通过 两 个 GET 方 法 得 到 了 页 面 内 容 和 格式 ， 从 而 打 


开 了 了 网页。 如 果 点 开 每 一 个 HITP 包 前 的 + 号 ， 还 能 看 到 其 协议 头 和 详细 
言 思 。 以 4 号 包 为 例 ， 它 的 HITP 协 议 头 在 Wireshark 中 如 网 4 所 示 。 其 包 
含 的 信息 大 概 可 以 归纳 为 : 我 要 通过 1.1 版 的 HTTP 协议 ， 从 服务 器 
www.rfc-editor.org 的 /info 目 隶 里 得 到 rfc2616 的 内 容 。 


5 GET zirfoprfc2616 HTrPALIAWn 
国 [Expert Info Chat/seouence}: GET info/rfc2z6L6 HTIPAL. IAA D] 
RequUest Method: GET 
RegquUest URI: /info/rfc2d16 
RequUest Yersiogn: HTTP .1 
hccept: text/html, application/xhtml+xml, 二 二 WA 
CCept-Language: zh-CNr‘n 
User-aAgent: Mozilla/s.0 (compatible; MSIE 10.0; Windows NT 6.1; Wowed4; Trident /6. Dr‘n 
MCCept-Encoding: gzip, deflarcer'n 
Host: ww. rfc-editeor, org\r “mn 





DONT: 1%\r"nN 

CONmection: Keepg-Alive™ rn 

中 

[FUTT regquest URL;: hrtp:, /ww. rfec-editor. org/info/rfca6i6l 


图 4 


HTTP 算 不 上 一 个 复杂 的 协议 ， 出 问题 的 时 候 也 能 在 浏 斋 郁 上 看 到 
错误 信息 ， 所 以 我 们 用 到 Wireshark 的 机 会 并 不 多 。 不 过 随 着 技术 的 进 
步 ，HTTP 越 来 越 多 地 应 用 到 不 需要 浏览 句 的 场景 中 ， 比 如 现在 如 火 如 
茶 的 云 存 储 技 术 束 有 Wireshark 的 用 武之 地 。 

由 于 海量 文件 不 适合 传统 的 目录 结构 ， 所 以 云 存 储 一 般 使 用 对 象 存 
储 的 方式 一 客 尸 问 访 问 文件 时 并 不 使 用 其 路 公 和 文件 名 ， 而 是 使 用 它 的 
对 象 D。 身 份 验 证 也 是 通过 HTTP 协 议 实现 的 。 工 程 师 们 处 理 此 类 问题 
时 就 能 用 上 Wireshark 了 了。 图 5 是 Wireshark 解 析 后 的 HTTP 读 文件 过 程 

(只 要 在 Wireshark 上 右键 音 击 其 中 一 个 包 ， 在 弹出 的 来 单 中 选 
择 “Follow TCP Stream” 束 可 以 打开 这 个 窗口 ) 。 我 们 可 以 从 中 看 到 该 文 
件 的 对 象 
ID“59J5T5K V78EPOe/AJIV55UO93DVG4140QGQQOOO0ED/PR8EJH3O0GI 
还 有 身份 验证 时 用 到 的 用 户 名 “paddy” 和 加 密 后 的 密码 。 我 们 甚至 可 以 
看 到 服务 器 回复 的 文件 内 容 *I am Paddy Lin...” 在 这 个 过 程 中 一 旦 发 生 问 
题 ， 比 如 身份 验证 出 错 了 ， 都 能 从 Wireshark 中 看 到 。 


国 IIow TCF Stream 本 








| 这 和 


| GET -， :Emr Doty ‘Centera, JSTSKV7SEPIe7 A]TVw55UG930VG41400GQa000ED7 PRBEEIH3OGUY HTTP,/1.1 
Connectign: ee -Alive 
Range:s bytes=d -427 

| | If-=Unnpod1it ied— i Thyu, D4 Jun 2009 O243:44 MT 

| Mrhorization: Digest UsErnane="paddy” » Fealm= Fifm 
Spaduee "12BO0I222021244083428GGGHIKWERTASOI? 655456UYTRREW algerithm=" MD 

| | nance=" SHITTY EEPOE? ei DFPREE3 pn 202 : Urie" /Fmroor, 
Cant er a 5 ISTHEVr EPOEFAITYI TUDO Ded1 ee ODED7PRAE IH DGUW 

| | response= bal4dibacd erastrc eetc3610B2eete 

| | Host; shifei.shanghai. pr 和 
User -Bgent: EMC ek ra FileMower 

| Content-Lengch: 


| | HTTE/IL.1 -206 Partial Contenmt 
| ECONtT enTt - Lengh: 3208 
Concent-Type: Text, i charsetr=UTF-—6 
| | tontent-Range; byte ar 3206 
| | connection: Keep—A ali 
| | Keep-Alive: timeocut= 30， max=10000 
| Last-Modified: Hed Jun 311903rdB 2009 €MT 
| | Accept—Ranges: 二 和 
| | server:Lima Callback Serve 
Date:wed JUT 24 OF:03:23 2010 


= ASC -EBCDIC ® Hex Durm CAras Raw 


| | Pr 





上 面 两 个 例子 都 用 到 了 GET 方 法 ， 因 为 它 是 最 弟 用 的 。 事 实 上 
HTTP 协 议 最 早 的 版 本 就 只 支持 GET，Tim 开 发 的 第 一 个 网 页 也 是 如 此 。 
这 在 今天 的 开发 者 看 来 简直 是 小 来 一 人 条， 甚至 给 人 一 种 “时 无 现 雄 ”的 错 
觉 。 但 如 条 放眼 整个 IT 历史 ， 现 在 看 起 来 很 了 不 起 的 技术 都 是 从 简单 肥 
展 而 来 的 。 以 云 存 储 为 例 ， 底 层 用 到 的 技术 并 不 新 视 ， 但 组 合 起 来 的 云 
概念 束 是 科 拉 前 沿 了 了。 

用 Wireshatk 玉 解决 HTTP 问 题 是 很 痛快 ， 因 为 整个 通信 过 程 一 哟 
吐 。 但 仔细 一 想 却 叫 人 和 直 冒 冷汗 一 如 有 果 连 传输 的 文件 内 容 都 可 以 清楚 地 
看 到 ， 那 我 上 网 时 的 聊天 记录 ， 甚 至 密 但 是 个 也 会 被 发 现 ? 很 不 伟 ， 答 
宁 是 肯定 的 。 如 果 没 有 使 用 加 密 软 件 ， 那 么 黑客 (或 者 你 的 领导 ) 了 驶 可 
gta en 在 哪些 帖子 上 祝福 楼 主 一 生平 

， 搜 索 了 什么 关键 词 ， 其 至 知道 你 登录 论坛 的 用 户 名 和 和 密码。 

图 6 是 我 在 Google 上 搜索 时 抓 的 包 。 从 4 写 包 可 以 看 到 我 用 到 的 关键 
词 “Max is the best boss in the world”(Max 是 我 老板 的 名 字 ， 和 硕 望 他 此 时 
下 在 监控 我 的 网 络 )。 如 有 果 本 部 门 把 这 类 包 收 集 起 来 ， 束 能 统计 出 员工 
们 上 班 时 都 在 搜索 什么 ， 再 通过 IP 地 址 还 能 查 到 每 一 项 是 谁 搜 的 。 
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图 6 
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+4t he+best+boss+int+the+nor 1 te 


至 于 更 敏感 的 用 户 名 和 密码 ， 这 里 也 有 个 血淋淋 的 例子 。 我 在 登录 
www.mshua.net〈 这 十 我 经 前 登录 的 园 乞 论坛 ) 时 抓 了 包 。 当 客户 闹 用 
POST 方法 把 用 户 名 和 答 码 传 给 服务 器 时 ， 已 经 在 网 络 上 暴露 了 刁 份 。 
请 看 儿 7 撒 部 的 用 户 名 “username=wiresharktest2 和 密 
但 “password=P@OSssw0rd”， 可 以 想见 这 个 明文 账 喜 和 密 但 随时 可 能 洲 入 
坏人 手中 。 事 实 也 是 如 此 ， 上 个 月 我 登录 时 ， 束 发 现 几 位 平时 一 本 正经 
的 网 友 在 发 成 人 图 厂 ， 显 然 他 们 的 密码 已 经 锐 盗 了 。 为 了 防止 好 奇 的 斌 
者 用 这 个 账 与 浏览 不 健康 信息 ， 我 已 经 把 密码 改 挥 了 。 


2 10.32.200,.43 115.246.16,.28 2013-090-22 12:13:46,.040170 HTTIP POST /bbs/member.php?mod=109ggingeaction=1ogin 
台 tm 


本 Frame 2: 14B bytes on wire (1184 bitsy, 148 bytes captured 1184 bitsy 
Ethernet II; Sre: Dell 68:80:2B8 (C26:0a: 68: BO: 26)， Dst: Cisco ed:aG:80 Cec:30:91:e3:ab:80) 
TCErner PFOCOC vl, STCeS 10.32.20043 C0 32.200;43Y,. DST: 115.23616,28 (115. 236.16.28) 





国 Transmission ra Protocol, Sre port: TE C2) Dst Port: http (320% seq: 1213, AcK: 1, Len: 和 4 
习 en TEP Segments (1308 bytes): #1 (C1214), ， 几 2 C94)] 
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图 7 


那 要 如 何 保 护 目 己 的 信息 呢 ? HTTPS 束 是 一 个 不 错 的 选择 。 比 如 用 
Google 搜 索 时 在 http 后 加 个 s， 变 成 https://www.google.com.hk/， 右 不 用 
担心 老板 知道 你 在 搜 些 什么 了。 图 8 就 是 使 用 HTTPS 搜 索 时 抓 的 包 ， 
意 服 务 器 亲口 是 443， 关 键 词 也 被 加 窗 到 了 了 “Encrypted Application 
Data” 里 。 
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| 男 Frame 118: 1104 bytes on wire CEB32 bits), 1104 bytes captured CEE32 bits) 
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团 Transmission Control Protocol, sre Port: S7227 (57227), D5t Port: https C443Y, Seqg: S44, Ack: 941 
是 5eEcUre Socket Layer 
加 TLSWw] Record Lavyer: Mpplication Data Prorocol: htircp 
content Type: Application Data (23) 
version: TLS 1.0 COx03014) 
Length: 32 
Encrypted Application Data:; ad3299f34bb3cf22533Bd63f105b8br37b3908cf1ib83bBac, .. 


图 8 


大 多 数 人 并 不 雷 要 理解 HTTPS 的 加 和 窒 算 法 ， 所 以 本 文 将 不 在 此 多 费 
笔墨 《其实 是 因为 我 目 己 也 不 懂 ) 。 但 因为 加 密 包 会 给 诊断 间 题 带 来 不 
少 障 碍 ， 所 以 浓 理 员 有 必要 知道 如 何 对 它 进行 解 码 。 图 9 是 4 个 HTTPS 
包 ， 我 们 除了 能 看 到 “Application Data Protocol” 是 HTTP 之 外 ， 几 乎 对 它 
们 一 无 所 知 ， 因 为 所 有 信息 都 极 加 密 了 。 


0; 六 OUrce Destinstion Time 
29 127.0.0.1 127.0.0.1 2006-04-24 J]7:04:18.835766 SSLV3 change Cipher Spec, ENncrypted Handshake Message, Application Data 
#0 127.0.0,1 i127.0.0.1 2006-04-24 17:04:18.836412 ssLv3 Applicacion coata, applicatcion oaca 
31 127.0.0.1 127.0.0.1 2006-04-24 17:04;18.836751 SSLv3 Mpplication Data 
32 127.0-.0.1 127.0.0.1 2006-04-24 17:04:18-.837090 SSLV3 Application Data, Application Data 
i | Im 
EE Frame 29: 62 bwEes on Wire rddgs TS 562 byres Capcured [ddo6 bircsy) 
田 Ethernet II, Src: 00:00:00 00:00:00 (00:00:00:00:00:00), Dst: 00:00:00 00:00:00 (00:00:00:00:00:00) 
Tnternet Pratncal, ros T2770-NT OAM mt T2700.NM1 O27 0.1 
EE Transmilssion Control Prorocol, Src Port: 38714 (C39714), Dst Port: https (443}, Seq: la2l,s Ack: 155, Len: 496 
BB secure socker Layer 
El 55Lv3 Record Lavyer: Change Cipher spec Protocol: change Cipher spec 
+ SSLv3 Record Layer: Handshake protocol: Encrypted Handshake Message 
SSLw3 Record Layer: Application Data Protocol: hrtp 
concentc Type: Application paca (23 
yersion: ssL 3.0 COxo300) 
Length: d156 
Emerypted Application Data: dacbcfeord2dadozhdsBe0rd dedBBblbteradblldbasdr. . . 


图 9 





要 对 这 些 加 和 密 包 进行 解码 ， 只 需要 以 下 几 个 步 又 (本 例 所 用 的 网 络 
包 和 密 钥 来 自 http://wiki.wireshark.org/SSL ”上 的 snakeoil2_070531.tgz 文 
件 ， 建 议 你 也 下 载 来 试 试 )。 

1. 解压 snakeoil2_070531.tgz 并 记 住 key 文 件 的 位 置 ， 比 如 
C:\tmp\rsasnakeoil 2.Key。 

2. 用 Wireshark 打 开 rsasnakeoil2.cap。 

3， 单 击 Wireshark 的 Edit-->Preferences-->Protocols-->SSL-->RSA 
keys list。 然 后 按照 IP Address,Port,Protocol,Private Key 的 格式 填 好 ， 如 
图 10 所 示 。 


-oecure Socket LayEr 一 一 
Reassemble 55L records spanning multiple TCP segments 加 | 


Reassemble SSL Application Data spanning multiple $3L records: 区 | 


RSA keys list | 127.0.0.1,443,http,C"tmp\rsasnakeoilz, key| 


图 10 


4. 蛙 击 OK， 这 些 包 束 成 功 解码 了 。 图 11 束 是 这 4 个 包 解 公 后 的 样 
子 ， 两 个 GET 方 法 都 可 以 看 到 。 
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困 Secure socket Layer 








图 11 


既然 HITPS 包 能 被 解 合 ， 征 不 是 说 明 它 也 不 安全 呢 ? 事实 并 非 如 
此 ， 因 为 解码 所 用 到 的 密 钥 只 能 在 服务 右 员 村 出 。 人 不同 的 服务 名 操作 步 
又 有 所 不 同 ， 比 如 IIS 服 务 硕 了 吏 可 以 参考 这 一 篇 文章 : 
http:/www.packetech.com/showthread.php?1585-Use-Wireshark-to- 
Decrypt-HTTPs 。 

你 的 老板 有 可 能 洲 入 Google 叶 出 密 钥 吗 ? 我 相信 我 老板 做 不 到 。 


无 懈 可 击 的 Kerberos 


在 证 希 有 适 神 话 中 ， 虹 界 的 大 门 由 一 头 烈 犬 看 等 。 此 大 长 有 三 个 头 ， 
现 兽 业 业 地 和 守 在 尾 河 边 ， 从 没有 有 魂 能 在 它 醒 痢 的 时 候 逃 离 。 这 头 烈 大 
台 定 Kerberos， 安 全 和 守卫 的 象征 。 吾 布 腾 人 下 葬 时 要 放 好 密 饼 ， 融 是 为 
了 讨好 它 。 现 代 游 戏 里 也 有 和 它 的 英 妆 ， 比 如 《英雄 无 敌 》 里 以 一 政 多 的 
地 狱 烈 大 。 

本 文 要 介绍 的 号 份 认证 协议 也 叫 Kerberos， 它 有 着 非 利 广泛 的 应 


用 ， 比 如 Windows 域 环境 的 续 份 认证 束 会 用 到 它 。 我 们 用 域 账号 登录 电 
脑 ， 束 在 不 知 不 党国 完成 了 一 次 Kerberos 认 证 过 程 。 


Kerberos 的 认证 结果 是 双 回 的 一 当 账 号 A 访 问 资 源 B 时 ， 不 但 B 要 确 
傈 A 并 非 冒 宛 ， 而 且 A 也 要 奏 明 B 不 是 假 货 。 我 们 一 般 只 知道 前 者 ， 比 如 
前 文 提 到 的 CIFS 服 务 器 就 要 在 Session Setup 中 对 造访 者 验 明 正身 。 后 者 
则 很 少 被 提 及 ， 因 为 人 们 一 般 不 会 怀疑 目 己 要 访问 的 资源 古 假 的 。 其 实 
后 者 还 是 很 有 必要 的 ， 举 一 个 例子 : 如 采 你 老板 伪造 了 一 全 网 络 打印 
机 ， 但 是 你 没 法 确认 它 的 真 假 ， 束 可 能 把 求职 信 打 到 他 办 公 室 里 去 ， 然 
后 束 真 的 得 出 去 求职 了 。 西 游记 中 其 实 也 出 现 需 要 相互 认证 的 场景 ， 比 
如 如 来 佛祖 要 认 出 假冒 的 访问 者 六 耳 独 猴 ， 唐 僧 师 徒 也 要 识别 山 容 
的 “资源 ?小 雷 首 竺 。 

双 同 认证 的 方式 不 止 一 种 ， 最 简单 的 做 法 是 互 报 密码 。 这 个 过 程 就 
像 电影 中 用 暗号 接头 。A 说 :“ 江 两 风光 好 ”，B 说 :“ 通 地 红 花 开 ”。 如 末 
双方 都 核对 无 误 ， 残 可 以 激动 地 握手 “同志 ， 我 可 找到 你 了 1! ?假如 其 中 
一 方 报错 暗号， 则 接头 失败 。 这 种 方式 的 网 痪 很 多 ， 节 大 的 问题 是 不 方 
便 宵 理 。 比 如 在 一 个 数 百 名 员工 共 圣 几 百 台 机 桥 的 环境 中 ， 当 新 加 入 一 
名 员工 时 ， 吏 得 在 几 百 人 台 机 需 上 更 新 账号 信息 。 相 信 没 有 管理 员 能 和 八 党 
这 样 的 环境 。 


有 没有 办 法 做 得 更 好 呢 ? Kerberos 采 用 的 方法 是 引入 一 个 权威 的 第 
三 方 来 负 ” 责 里 份 认证 。 这 个 第 三 方 称 为 KDC， 它 知道 域 里 所 有 账号 和 
资源 的 密码 。 假 如 账号 A 要 访问 资源 B， 只 要 把 KDC 拉 出 来 证 明 双 方 里 
份 束 行 了 。 在 这 种 机 制 下 ，A 和 B 都 没 必 要 知道 对 方 的 密码 ， 完 全 依赖 
KDC 束 可 以 。 

原理 说 起 来 稍 单 ， 通 过 程序 实行 起 来 可 残 难 了 。 事 实 上 由 于 
Kerberos 过 于 复 洒 ， 从 来 没有 一 位 技术 作家 能 把 它 人 简单 地 表述 出 来 。 最 
文艺 的 Kerberos 诠 释 当 属 肪 省 理工 学 院 编 的 一 出 话剧 ， 搜 索 一 
下 “Kerberos 四 幕 话剧 ? 束 能 找到 它 ， 但 其 实 理解 这 话剧 还 是 不 容易 。 首 
好 有 了 Wireshark 之 后 ， 可 以 使 Kerberos 的 认证 过 程 变 得 清晰 很 多 。 在 下 
面 的 实验 中 ， 账 号 A 是 我 的 域 账号 linp1， 资 源 B 古 一 台 叫 CAVA 的 
Windows 服 务 器 。 账 号 A 访问 资源 B 其 实 就 是 linp1l 登 录 CAVA 的 过 程 。 
第 一 步 ， 账 号 A 和 KDC 互 相 认 证 。 

这 可 以 看 成 一 道 有 趣 的 小 学 奥数 题 : 已 知 世界 上 只 有 A 和 KDC 知 道 
人 A 的 密码 ， 如 何 利 用 该 密码 互相 证 明 目 己 的 映 份 ? 你 也 许 会 想到 孔明 和 
周瑜 在 手心 对 字 ， 下 接 同 对 方 亮 出 A 的 答 合 。 但 在 网 络 环境 中 不 能 这 样 
做 ， 因 为 如 果 其 中 一 方 是 假 的 ， 不 孢 委 尽 到 真 密码 了 吗 ? 既 要 做 到 不 说 
出 密码 ， 叉 要 让 对 方 知道 自己 拥有 密码， 应 该 怎样 实现 ?Kerberos 目 有 
一 僚 严 窗 的 办 法 。 

1. 账号 A 利用 hash 函 数 把 密码 转化 成 一 把 窒 钥 ， 我 们 称 它 为 Kdlt。 

2. 用 Kclt 把 当前 时 间 惟 加 冤 ， 生 成 一 个 字符 串 。 我 们 用 “{ 时 间 惟 } 
Kadlt” 玉 表示 它 。 

3. 把 上 一 步 生 成 的 字符 串 “{ 时 间 戳 }】 Kclt*、 账 号 A 的 信息 ， 以 及 
一 段 随机 字符 串 友 给 KDC。 这 样 束 组 成 了 Kerberos 的 吴 份 认证 请 求 
AS_REQ。 我 们 用 下 和 面 这 个 公式 来 表示 这 个 请 求 。AS_REQ =“{ 时 间 玲 } 
Kadlt”， “账号 A 的 信息 ”>，“ 随 机 字符 串 ” 

如 多 1 所 示 ， 我 实验 室 中 的 账户 名 字 为 jnp1， 本 次 生成 的 随机 字符 
串 是 136224786。 


Nis, em Destimation Tirme Brotocol Irnto 
19 10.32.106.116 10.32.,106.103 15:14:04.481503 KRBS BAS-REQ 
20 10.32.106.1403 410; 32,106.116 153:1d :O44.487202 KRBS BAS-REF 
a | 
-kerberos AS-REQ 
Pwmo: 5 
MSG TYPe: AS-REQ C10) 
日 padata: PA-ENC-TIMESTAMP PA-PAC—REQUEST 
日 Type: PA-ENC-TIMESTAMP (C2) 
EE Value: 303da003020J]17a23604345cb2aa3ti7?3c837bislacc bid... rcd4-hmac 
Encryption type: rcd-hmac C23) 
EB enc PA_ENC TIMESTAMP: Scb2aadfl73c837bllaccbl 8fdc8bcd47 SbcBbeead322bf 
[Decrypted using: keytab principal none@none] 
patimestamp: [2012-03-14 D7:14:04 (UTCY)| Ha 
pausec: 333347 
田 TWpe: PA-PAC-REQUEST (C128) 
四 KDC_REQ BODY 
Padding: 0 
KDCcopTions: 40810010 CForwardable, Renewable, canonNnicalize, Renewable OK) 
加 Client Mame (Principal): Ninpl | 账号 信 逢 
Realm: NAS 
Hi Server Namne (Service and Instancey: krbtat,/NAs 
till: 2037-0@9-13 O02:48:05 (CUTCY 
rtime: 2037-09-13 02 .48:05 CUTC) 
Nonce: 136224786| | 逢 机 字符 蛙 
图 1 





4. KDC 收 到 AS_REQ 之 后 ， 先 读 到 账号 A 的 信息 "inp1”， 于 是 便 调 
出 A 的 和 密码， 再 用 同样 的 hash 孙 数 转化 为 Kdt。 有 了 Kadlt 束 可 以 解 开 “{ 时 
间 惟 } Kclt* 了 ， 如 果 能 解 开 则 说 明 该 请 求 是 由 账号 A 生成 的 ， 因 为 其 他 
账号 不 可 能 有 Kclt 可 以 加 密 。 

Kerberos 为 什么 要 选用 时 间 惟 来 加 密 ， 而 不 是 其 他 呢 ? 原因 束 是 黑 
客 可 能 在 网 络 上 鹤 获 字符 串 “{ 时 间 戳 } Kdt*， 然 后 伪装 成 账户 A 来 驴 认 
证 。 这 种 方式 称 为 重 放 攻击 。 重 放 攻 击 的 念 荫 过 程 需要 一 段 时 间 ， 所 以 
KDC 把 解密 得 到 的 时 间 惟 和 当前 时 间作 对 比 ， 如 果 相 甜 过 大 吏 可 以 判断 
征 重 放 攻 击 了 。 假 如 采用 与 时 间 无 关 的 字符 来 加 密 ， 则 无 法 避 开 重 放 攻 
击 ， 这 就 是 我 们 必须 在 域 中 同步 所 有 机 器 时 间 的 原因 。 

5. 接 下 来 轮 到 KDC 同 账号 A 证 明 目 己 的 对 和 份 了 ， 上 文 提 到 的 随机 
字符 串 就 用 在 这 里 。 理 论 上 KDC 只 要 用 Kclt 加 密 随 机 字符 串 ， 再 回复 给 
账号 A 束 可 以 证 明 目 己 的 身份 了 。 因 为 假 的 KDC 是 没有 Kclt 的 ， 账 户 A 
全 到 回复 之 后 解 不 出 那个 随机 字符 串 ， 吏 知道 KDC 有 假 。 

忌 结 以 上 过 程 ， 账 号 A 和 KDC 都 没有 同 对 方 发 送 密码 ， 所 以 即便 一 
方 是 假 的 也 不 会 泄露 信息 。 而 如 果 双 方 都 是 真 的 ， 则 实现 了 互相 认证 ， 


可 以 算是 完美 7 了。 不 过 这 个 机 制 下 的 KDC 会 非常 忙碌 ， 假 设 每 次 认证 都 
得 调 出 账号 密码 、hash、 解 密 ..…. 而 且 每 个 客户 端 一 天 可 能 要 验证 数 十 
次 ， 那 域 中 就 得 配备 大 量 的 KDC 才 负担 得 起 。 有 没有 办 法 进一步 改进 
呢 ? Kerberos 为 此 设计 了 一 个 精巧 的 方法 。 

a. KDC 生 成 两 把 一 样 的 密 钥 Kdt-Kdc， 作 为 以 后 账户 A 和 KDC 之 间 
互相 认证 之 用 ， 这 样 融 省 去 了 调 出 账号 A 的 密 公 和 hash 等 工作 。 按 理 说 
其 中 一 把 Kclt-Kdc 要 友 给 账 刀 A 保 管 ， 另 一 把 由 KDC 目 己 保 管 。 但 是 倚 
管 密 钥 对 忙碌 的 KDC 来 说 也 是 一 个 负担 ， 所 以 它 决 定 委 托 给 账户 A 保 
管 ， 以 后 账号 A 每 次 需要 KDC 的 时 候 ， 再 把 这 把 密 钥 还 回来 。 这 个 办 法 
听 上 去 不 太 靠 谱 ， 万 一 有 个 假冒 的 账户 A 交 回来 一 把 假 密 钥 怎 么 办 ? 为 
了 避免 这 个 问题 ，KDC 把 自己 的 密码 hash ”成 Kkdc， 然 后 用 它 加 密 那 把 
委托 给 A 的 密 钥 。Kerberos 里 把 这 个 委托 的 密 钥 称 为 TGT (Ticket 
Granting Ticket) ， 可 以 用 下 面 的 公 却 来 表示 。 

TGT = {账户 A 相关 信息 ，Kclt-kdc} Kkdc 

有 了 这 个 委托 保存 的 机 制 ，KDC 只 需 记 得 自己 的 Kkdc， 就 能 解 开 
委托 给 所 有 账号 的 TGT， 从 而 获得 与 该 账号 之 则 的 密 钥 。 通 过 这 个 机 
制 ，KDC 的 工作 负担 就 大 大 降低 了 。 

总 结 下 来 ，KDC 回 复 给 账户 A ”的 AS_REP 应 包含 以 下 信息 〈 见 图 
2 

AS_REP=TGT, {Kclt-kdc, 时 间 惟 ， 随 机 字符 串 }Kclt 


No. STCE Destiriation Tirme Proatocol Infa 
I 141m 33 1 Ws ee Ee Ee | | | , ee ETE pr 


ee EE 
一 






Lh 





04 .487207 KRBS AS-REP 


4 | 


日 Kerberos As-REP 
Pvno: 3 
MSG Type: AS-REP (C11) 
Client Realm: NAS.COM 
Client Name (Principal): linpl 
田 [ 人 icket 这 就 是 TGT 
日 enc-part rc4-nmac 
Encryption type: rc4-hmac (23) 
Kvyno: r 
电 enc-part: dirarBrecfadaf45cb7 546T4fbOc375a6bfbOer 7e3b37ear... 
[Decrypted using: keytab principal mone&none | 
加 ENncKDCRepPart 
这 是 Kclt-kdc 
思 LastReqs: 
日 LastReq 
Lr-type: No information available (0) 
Lr-time: [2012-03-14 07:14:04 CUTOY 时 [9j 稚 


INonce: 136224786| 随 机 字符 让 
图 2 
































b. 账户 A 收 到 AS-REP 之 后 利用 Kclt 解 密 “{Kclt-kdc, 时 间 惟 ， 随 机 字 
从 串 } Kclt"。 通 过 解 开 来 的 随机 字符 串 和 时 间 惟 来 确定 KDC 的 真实 性 ， 
然后 把 Kclt-kdc 和 TGT 保 存 起 来 备用 。 

第 二 步 ， 账 号 A 请 KDC 帮 和 忙 认 证 资源 B。 

1. 这 时 应 该 发 什么 给 KDC 呢 ?首先 TGT 古 肯定 要 交还 给 KDC 的 ， 

其 次 还 有 账户 A 的 相关 信息 、 当 前 时 间 惟 ， 以 及 要 访问 的 资源 B 的 信息 
( 见 图 3) 。 这 个 请 求 在 Kerberos 中 称 为 TGS-REQ， 可 以 用 下 面 的 公式 
表示 。 

TGS_REQ = TGT，{ 账 户 A 相 关 信 息 ， 时 间 稚 }Kalt-kdc, “资源 B 相 
关 信 息 ” 








EOE, [*| Expression... Clear ppl 
Ma, Surce Destimaban Time Protocol Info 


1 i1032,106,.14i16 10.32,106,1U3 13 :1 :人 ,村 有 R392 KEE3 TGS-REQ 
站 BG 3 并 RE T6555-REP 


[ 国 Ticket| 区 还 给 KDC 的 TGT 
日 AuthemntTcator rcd-hmac 
Encryption type: rc4-hmac C23} 
EB Authenticator data: S0108bod287749T662ad9bdbl176733af4a383a5 
[Decrypted using: Key learnt Trom frame 20] 
Authenticator 
AUThenticator vno: 5 


Client Realm: NAS.COM Fea 
四 citent Name (principaly: finpd 账号 信息 


EE Checksum 





: |2Ul FE 
segq NuUMber: 136224999 
KDC_REQ BODY 
Padding: 站 
HH KDCoOptions: 0810000 (Forwardable, Renewable, Canonicalize) 
Realf: NAS.COM 


田 Server Hame 【Service and Host}): [host/cava.nas.com 党 源 B 的 司 和 谍 
图 3 


2. KDC 收 到 TGS-REQ 之 后 ， 先 用 Kkdc 解 密 TGT 得 到 Kclt-kdc， 再 
用 Kclt-kdc 解 密 出 账号 A 的 相关 信息 和 时 间 惟 来 验证 其 身份 。 一 旦 认定 
账号 A 为 真 ， 就 要 想 办 法 帮助 A 和 B 互 相 认 证 了 。 

3. KDC 生 成 两 把 同样 的 密 钥 供 A 和 B 之 间 使 用 ， 我 们 就 称 这 个 密 铀 
为 Kclt-srv 吧 。 其 中 一 把 密 钥 直接 交 给 账号 A， 男 一 把 委托 A 转交 给 资源 
B。 为 了 人 确保 A 不 会 受到 假 的 资源 B 所 骗 ，Kerberos 把 B 的 密码 hash 成 
Ksrv， 然 后 用 它 加 密 那 把 委托 A 转交 给 B 的 Kalt-srv， 成 为 一 张 只 有 真正 
的 B 能 解密 的 Ticket。 总 结 起 来 ，KDC 给 账号 A 的 回复 可 以 表示 如 下 〔〈 见 
图 4) 。 

Ticket = {账号 A 的 信息 ，Kclt-srv}Ksrv 
TGS_ REP = {Kclt-srv}Kclt-kdc, Ticket 

这 里 的 “账号 A 的 信息 ”可 不 仪 仪 包括 名 字 ， 连 A 所 在 的 Domain 
Groups 都 包含 在 里 面 。 所 以 如 果 A 属 于 很 多 个 groups，TGS_REP 包 会 非 
稍 大 。 
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刁 Kerberos ToS5-REP 
PVPBG: 3 
M556 Type: TGS-REP (13) 
Client Realm: NAS.COM 
加 Client Name tprincipal): linpi 
田 Ticket| 这 就 是 [账号 A 的 信息 ，Kclt-srv]Ksrv 
回 enc-part rc4-hmac 
Encryption type: rea4-hmac C23) 
回 enc-part: Befer46e9sfofesoifate2339b2cdcbdc3ditbe2d7? 540b4. .. 
[becrypted using: key learnt from frame 20 
J ENCKDCREepPart 
J key rec4-hmac 
Key type: rcd-hmac {23. 


3) 
Key walue: HL3b4b9c905646d253dab2aid4a391945| ] 文 是 区 CIt-Srw 


图 4 





这 是 {Kclt-srvyKclt-kde 


4. 账 写 A 收 到 TGS_REP 之 后 ， 和 完 用 Kclt-kdc 解 开 {Kclt-srv}Kclt- 
kdc， 从 而 得 到 Kclt-srv。Ticket 留 痢 友 给 资源 B。 接 下 来 如 采 需 要 多 次 访 
问 资 源 B， 都 可 以 使 用 同一 个 Ticket， 而 不 需要 每 次 都 同 KDC 申 请 ， 这 
也 大 大 降低 了 KDC 的 负担 。 

第 三 步 ， 账 号 A 和 资源 B 互 相 认 证 。 

1. 到 这 一 步 束 人 简 持 了 。 账 亏 A 给 资源 B 友 运 “{ 账 号 A 的 信息 ， 时 间 
惟 } Kclt-sry” 以 及 上 一 步 收 到 的 Ticket。 这 个 请 求 称 为 AP_REQ。 

AP_REQ = “{ 账 亏 A 的 信息 ， 时 间 惟 }Kclt-srv”，Ticket 

2， 如 各 资源 B 征 假 的 ， 它 是 解 不 开 Ticket 的 。 如 朱 资 源 B 电 其 的 ， 
它 可 以 用 目 己 的 密码 生成 Ksrv 来 解 开 Ticket， 从 而 得 到 Kclt-srv。 有 了 了 
Kclt-srv 训 可 以 解 开 “{ 账 号 A 的 信息 ， 时 间 稚 } Kdlt-srv” 部 分 。 这 样 资源 B 
束 可 以 确定 账号 A 为 真 ， 然 后 回复 AP_REP 来 证 明 目 己 也 是 真 的 。 

AP _REP = { 时 间 惟 }Kclt-srv 

3. 账号 A 利 用 Kclt-srv 来 解密 AP REP， 有 再 通过 得 到 的 时 间 玲 来 判断 
对 方 是 否 为 真 。 

第 三 步 是 抓 不 到 网 络 包 的 ， 因 为 这 个 实验 过 程 是 用 户 linp1 登 录 
Windows 服 务 右 CAVA， 和 第 三 步 没 有 发 生 在 网 络 上 。 假 如 接 下 来 用 户 
linp1 访 问 CAVA 之 外 的 其 他 资源 ， 比 如 访问 网 络 共享 ， 我 们 吏 能 在 
Session Setup 里 找到 AP_REQ 和 AP_REP 了 。 如 图 5 所 示 ， 我 在 Session 
Setup AndX Request 包 中 点 开 Security Blob， 束 把 AP_REQ 显 示 出 来 了 。 


28 10. 32,.106.116 10. 32.1006.103 15:14:07. 322618 ME Session Setup AndXx Request 
430 0 $0,105. 10d. LU 32.100 116 13:140 3.43/U MB Session Setup MAndXx Response 


日 Se55ion Setup Ancx Ee (Ox73) 
Word count (WET): 
Ancdicomnmand: No th commands (Oxtf) 
Reserved: DO 
Ancxoffset: 2676 
Max Buffer: 16644 
加 a 网 帮 RUmLE : SO 
We Mumber: 1 
Session Key: 和 MODOUODOUUD 
Secuyurity Blob Length: a472 
Reserved: DODODODO 
capabilities: Dxad0o0drds 
Byte Court (BOC]: 2617 
Security Blob: S082090a406062b0601050502a082090830820904 a0243022... 
日 GSS-API Ceneric Security Service Application Program InNnterface 

DID; 1.3.61.5,.5.2 (SPNEGO 一 Simple Protected Negotiationy 

Hsinple Prorected Negotiation 
日 negTokenIinit 
由 mechTypes: 3 1tems 
mechToken: 6082096206092a6486f7120]020201006eB2095130B209, .， 
EH krbs blob: S082096206092a64386f7120102020] 006e82095]1308209,. .， 
KRES OID: 1.2,. BA0,.1135%4,1,2,.2 KRES - Kerberos 5) 
krFrb5_ Tok_ id: KRES_AP_REQ (CONWDIO0LY 
图 5 


团 


六 你 第 一 次 认识 Kerberos， 我 估计 已 经 看 得 云 里 务 里 了 。 
相信 这 古人 类 的 正 第 有 反应， 我 给 好 几 批 工程 师 培 训 过 Kerberos， 几 乎 没 
yp oem 图 6 是 整个 认证 过 程 的 流程 图 ， 也 许 对 理解 会 有 
所 帮助 。 







IAS REQ 





2AS REP 


4TGS_ REP 


5AP REQ 
账号 A 6AP_REP 资源 B 


图 6 





当 你 完全 理解 Kerberos 之 后 ， 可 能 会 意识 到 一 个 问题 不 对 啊 ， 那 


么 多 加 密 信息 都 被 Wireshark 显 示 出 来 了 ， 还 有 什么 安全 可 言 ? 其 实 我 
是 用 linp1 的 密码 生成 了 一 个 keytab 文 件 ， 再 用 它 来 解密 的 。 上 有 具体 操作 如 


下 
1. 参照 Wireshark 的 官方 说 明生 成 keytab 文 件 ， 步 又 请 参考 


http://wiki. wireshark.org/Kerberos。 

2. 把 这 个 文件 和 网 络 包 放 到 同一 个 目录 里 。 

3. 打开 Wireshark 的 Edit-->Preferences-->Protocols-->KRB5 沫 单 ， 在 
图 7 所 示 的 窗口 勾 上 两 个 选项 ， 然 后 和 输入 keytab 文 作 的 名 拉 EE , 


Reassemble Kerberos over TCP messagesspannng multiple TCP segments; 加 | 


Tryto decrypt Kerberos blobs: 加] 


Kerberps keyvtab file: | krbs,keytab 





4. 打开 网 络 包 ， 束 能 看 到 解密 后 的 内 容 了 。 

这 tdi 的 原因 之 一 ， 即 使 像 Kerberos 这 么 复杂 的 协 
议 ， 写 也 能 完全 解析 出 来 。 这 们 和 直 是 域 管 理 员 的 福音 。 我 稍 作 回忆 ， 融 
epi 
案例 1: 某 客户 可 以 用 “\\<1P 地 址 >” 访 问 某 文件 服务 器 ,但 用 了 “\\< 
域名 >” 则 不 能 访问 

用 了 Wireshark 折 包 才 知道 ， 客 户 疾 用 IP 访 问 时 用 了 NTLM 作 寺 份 验 
证 ， 而 用 域名 访问 时 则 用 Kerberos。 由 于 两 种 验证 方法 机 制 不 同 ， 所 以 


结果 也 不 一 样 。 比 如 当 客 户 闪 和 服务 需 的 时 间 疫 有 同步 时 ，Kerberos 会 
认为 该 访问 是 重 放 攻 击 而 拒绝 访问 ， 但 NTLM 不 会 。 
案例 2: 一 个 域 账 号 明明 被 加 到 有 霖 个 组 里 ， 访 组 也 被 赋予 访问 文件 夹 的 
权限 ， 但 是 该 账号 就 是 访问 不 了 这 个 文件 夹 。 

用 Wireshatk 解 密 了 AP_REQ 之 后 ， 并 没有 看 到 那个 组 。 很 可 能 是 用 
户 登 录 〈 获 得 包含 组 信息 的 ticket) 之 后 ， 才 被 加 到 那个 组 里 的 。 让 该 
用 户 注销 后 再 登录 ， 获 得 新 Ticket 吏 好 了 。 
案例 3: 未 台 客 户 凯 加 入 域 失 败 ， 查 了 很 久 都 没 找到 原因 。 

用 了 Wireshark 之 后 ， 在 包 里 有 发现 
“KRB5KRB_ERR_RESPONSE_ TOO_BIG” 的 错误 信息 〈 见 图 8) 。 利 用 
该 报错 很 快 束 从 微软 的 网 站 上 找到 了 解决 方案 。 

国 weaurpep — = 要 一 一 -一 


| Ele Edt View fo Capture Analyze Statistics Telephony Took Wsintemal Help 


A 全国 | QA GQ | 答 国 辕 关 | 加 
























Filter kerberas|| lap -| Erpression... Clear Lpphy 
| Nm， 0 Destination Tirme Protecol rf 
| 5 于 和 5. 工 。 5 册 10, $11.2 ?i778IL LOAP bindRequestt1) "<ROOT>" simple 
T3210-.5-:1-2z 10. 5§.1.54 1 .FL DaP birdResponserll)y SUCCess 
| 5 玉 了 半生 -5 工 - 5 中 | F1757812 CaF Search TZ -=" baseoblject 
z 10. 5 ENEryaY “二 RONGTT | searchresoonertzy success [1 Fesult] 
村 Tt Ws + Pi Tn 声调 1 | | cn i uy 了 < 
下 了 上 起 一 屁 Ei 和 
地 | CB EF [5 I 


TCP/P 的 故事 


我 们 生活 在 这 样 一 个 时 代 : 只 要 连 上 网 络 ， 就 可 以 和 朋友 交流 ， 无 
论 距离 远近 ; 也 可 以 网 购 两 品 ， 友 和 普 制 手 都 无 济 于 事 ; 还 可 以 点 评 正在 
及 生 的 大 小 事件 ， 像 量 上 批阅 委 章 一 样 日 理 万 机 。 用 我 们 这 一 行 的 表达 
方式 ， 可 以 说 现代 人 的 生活 是 基于 网 络 的 。 

网 络 的 流行 很 大 程度 上 要 归功 于 Vinton Cerf 和 Robert Kahn 这 对 老 搭 
档 〈“ 见 图 1) 。 他 们 在 20 世 纪 70 年 代 设 计 的 TCP/IP 协 议 英 定 了 现代 网 络 
的 基石 ， 也 因此 获得 过 计算 机 寞 的 最 噩 末 誉 一 图 灵 奖 。 





Vinton 和 Robert 一 起 获得 总 统 和 月 由 励 章 


图 1 


谨 起 来 TCP/IP 还 不 是 这 两 位 互联 网 之 父 的 第 一 次 合作 。 在 此 之 前 ， 
他 们 一 起 参与 了 阿 则 网 的 开发 。 阿 由 网 称 得 上 现代 网 络 的 前 刁 ， 当 时 谁 
也 没有 想到 ， 车 黎 阿 则 网 的 葛 是 它 的 两 位 设计 者 。Robert 后 来 回忆 说 ， 
当 他 把 工作 重心 从 阿 由 网 转 同 TCP/AP 时 ， 喘 边 的 人 都 以 为 他 的 事业 陷入 


低谷 ， 而 实际 上 那 才 是 他 事业 的 真正 开始 。 

Robert 为 人 低调 ， 每 次 接 党 采访 都 一 本 正经 。Vinton 热 情 外 同 ， 天 
于 他 的 趣事 很 多 。 比 如 他 和 女友 第 一 次 约会 时 去 了 艺术 博物 馆 。 开 另 
Vinton 在 一 贝 大 型 作品 前 位 立民 久 ， 最 后 冒 出 一 句 评 语 : “这 男 真 像 一 
只 巨 大 的 新 鲜 汉堡 包 ”， 我 们 可 以 想象 他 的 画家 女友 当时 的 表情 。 当 
然 ， 找 个 技术 青年 当 男 友 也 不 是 一 无 是 处 。 后 来 在 他 们 的 婚礼 上 ， 有 孙 首 
机 突然 卡 壳 了 。Vinton 终 于 发 挥 了 一 把 特长 ， 和 伴 即 一 起 到 小 房间 修 录 
首 机 了 。 互 联网 造福 了 世界 ， 目 然 也 包括 Vinton 目 己 的 生活 。 因 为 夫妻 
癸 都 有 听力 缺陷 ， 听 电话 非 营 吃力 ， 电 子 邮件 残 为 他 们 市 来 不 少 便利 。 

现在 人 们 说 到 TCP/IP 时 ， 指 的 已 经 不 止 是 TCP 和 IP 两 个 协议 ， 而 是 
包括 了 Application Layer、Transport Layer、Internet Layer 和 Network 
AccessLayer 的 四 层 模 型 。TCP 处 于 Transport Layer， 而 卫 处 于 Internet 
Layer。 鲜 为 人 知 的 是 ， 一 开始 这 两 个 协议 并 没有 分 层 ， 而 是 合 在 一 起 
的 。 当 时 的 计算 机 科学 家 Jon Postel 对 此 批评 说 : 

“We are Screwing up in our design of internet protocols by violating the 
principle of layering. Specifically we are trying to use TCP to do two things: 
serve as a host level end to end protocol, and to serve as an internet 
packaging and routing protocol. These two things should be provided in a 
layered and modular way. I suggest that a new distinct internetwork protocol 
is needed, and that TCP be used strictly as a host level end to end 
protocol.”( 我 们 违背 了 分 层 原 则 ， 从 而 搞 盔 了 网 络 协 议 的 设计 。 上 具体 来 
说 ， 我 们 正在 笠 试 使 用 TCP 来 做 两 件 事 : 作为 一 个 主机 级 列 的 病 到 病 协 
议 ; 同时 也 作为 网 络 的 分 组 和 路 由 协议 。 这 两 件 事 本 应 该 用 分 层 和 模块 
化 的 形 陈 来 实现 。 我 建议 设计 一 个 新 的 网 络 互联 协议 ， 并 且 把 TCP 严 格 
限制 为 主机 级 列 的 哨 到 站 协议 。) 

-一 Jon Postel, IEN 2, 1977 

这 个 建议 一 年 后 被 采纳 了 ， 第 三 版 的 协议 决定 把 TCP 和 IP 分 离开 
来 ， 并 且 延 续 至 今 。 无 巧 不 成 书 ，Jon Postel 恰 好 是 Vinton 的 高 中 同学 ， 


也 是 阿 帕 网 项 目的 同事 。 他 在 1998 年 因 病 去 志 时 ，Vinton 为 他 写 了 一 篇 
感人 至 深 的 计 告 ， 并 且 作 为 RFC 2468 发 布 。 据 我 所 知 ， 这 是 唯一 一 篇 无 
关 扩 术 的 RFC。 对 一 位 计算 机 科学 家 来 说 ， 这 也 许 是 最 有 意义 的 纪念 方 
式 。 我 们 今天 还 可 以 通过 http:/Wtools.ietf.org/htmlrfc2468 了 阅读 它 。 

TCP/IP 的 设计 非 第 成 功 。30 年 来 ， 压 层 的 市 守 、 延 时 ， 人 还 有 介质 都 
发 生 了 翻 天 和 履 地 的 变化 ， 顶 层 也 多 了 不 少 应 用 ， 但 TCP/IP 却 安 如 泰 
山 。 它 不 但 战胜 了 国际 标准 化 组 织 的 OSI 七 层 模 型 ， 而 且 目 前 还 看 不 到 
锐 其 他 方 宁 取代 的 可 能 。 第 一 代 从 事 TCP/IP 工 作 的 工程 师 ， 到 了 退休 年 
冷 也 在 做 看 因 阳 产业 。 

令 人 喘 解 的 征 ， 现 在 的 大 学 读 程 还 在 介绍 OSI 七 层 模型 。 它 和 
TCP/PP 模 型 的 对 应 关系 如 图 2 所 示 。 因 为 OSI 模型 的 层 数 太 多 ， 很 多 学 生 
根本 理解 不 了 ， 其 至 连 顺 友 都 记 不 住 。 于 是 老师 们 就 用 “All People Seem 
To Need Data Processing” 来 帮助 记忆 ， 因 为 这 7 个 单词 的 首 字 母 和 OSI 模 
型 每 一 层 的 首 字母 是 一 样 的 。 大 学 的 应 斌 教育 由 此 可 见 一 班 。 更 奇怪 的 
征 学 生 们 走出 校园 后 ， 会 友 现 这 个 案 重 的 七 层 模型 已 经 没有 市 场 。 虽 然 
历史 上 它 得 到 过 官方 的 大 力 文 持 ， 但 是 市 场 明显 更 青睐 TCPAP 四 层 模 
型 。 
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按理 说 OSI 是 权威 组 织 ， 它 所 议 计 的 模型 应 该 是 科学 的 。 为 什么 反 
而 会 不 党 欢迎 呢 ? 很 多 专家 都 对 此 有 过 评论 ， 其 中 以 普度 大 学 特聘 教授 
Douglas Comer 的 批评 最 为 激烈 。 他 曾经 在 一 遍 文 章 里 这 样 写 过 : 
“最 近 有 了 一 些 惊人 的 友 现 : 我 们 都 知道 这 个 七 层 模 型 是 由 一 个 小 组 
( 见 图 3) 完成 的 ， 但 大 家 不 知道 的 是 ， 这 个 小 组 有 一 天 深夜 在 酒吧 里 
谈论 美国 的 娱乐 八卦 。 他 们 把 迪斯尼 电影 里 7 个 小 矮人 的 名 字 写 在 餐巾 
纸 上 ， 有 个 人 开玩笑 说 7 对 于 网 络 分 层 是 个 好 数字 。 第 二 天 上 午 在 标准 
化 委员 会 的 会 议 上 ， 他 们 传 岗 了 那 张 餐 市 纸 ， 然 后 一 致 同意 上 昨 晚 吻 酬 时 
的 重大 发现 。 那 天 结束 时 ， 他 们 又 给 七 个 层次 重新 起 了 上 听 上 去 更 科学 的 
名 字 ， 于 是 模型 殴 诞 生 了 。 


于 





OSI 七 层 模型 工作 小 组 的 合影 
图 3 


这 个 故事 告诉 我 们 : 如 朱 你 是 标准 委员 会 中 的 工程 师 ， 请 不 要 和 同事 唤 
酒 一 深夜 在 酒吧 里 开 的 一 个 拙 务 玩 突 ， 却 可 能 成 为 业界 几 十 年 挥 之 不 去 


的 串 梦 。” 

Douglas 是 网 络 界 德 高 户 睾 的 前 幸 ， 他 回 到 普 撒 大 学 之 前 曾 是 Cisco 
的 Vice President of Research， 同 时 也 是 久负盛名 的 技术 作家 ， 所 以 他 的 
观点 很 有 代表 性 。 而 当时 业界 普遍 对 符 OSI 模 型 的 抵触 态度 ， 更 是 一 个 
有 力 的 佐证 。 圣 好 到 了 今天 ，OSI 模 型 几乎 名 存 实 亡 了 ， 它 对 我 们 的 影 
吧 只 停留 在 还 没 来 得 及 更 新 的 教科 书 上 。 


(1) 在 这 一 步 ， 客 户 问 找 到 服务 硕 的 portmap 进 程 ， 同 它 租 询 NFS 进 程 的 
闹 口 写 。 然 后 服务 妖 的 portmap 进 程 回 复 了 2049。portmap 的 功能 是 维护 
一 张 进程 与 闹 口 号 的 对 应 关系 表 ， 而 它 目 己 的 问 口 号 111 是 众所周知 

的 ， 其 他 进程 都 能 找到 它 。 这 个 角色 类 似 很 多 公司 的 前 台 ， 她 知道 每 个 
员工 的 分 机 亏 。 当 我 们 需要 联系 公司 里 的 茶 个 人 《比如 NEFS) 时， 可 以 
先 拨 前 台 (111)， 和 查询 到 其 分 机 号 (2049)， 然 后 就 可 以 拨 这 个 分 机 号 了 。 
其 实 大 多 数 文件 服务 器 都 会 使 用 2049 作 为 NFS 端 口号 ， 所 以 即便 不 先 咨 
询 portmnap， 直 接连 2049 端 口 也 不 会 出 问题 。 

(2) 客户 端 尝 试 连接 服务 器 的 NFS 进 程 ， 由 此 判断 2049 端 口 是 否 被 防火 
墙 拦截 ， 还 有 NFS 服 务 是 否 已 经 启动 。 

(3) 客户 端 再 次 联系 服务 器 的 portmnap， 询 问 mount 进 程 的 端口 号 。 与 NFS 
不 同 的 是 ，mount 的 交口 号 比较 随机 ， 所 以 这 步 询 问 是 不 能 跳 过 的 。 

(4) 客户 并 尝 试 连 接 服 务 器 的 mount 进 程 ， 由 此 判断 1234 绒 口 是 否 被 防火 
墙 拦截 ， 还 有 mount 进 程 是 否 已 经 启动 。 

(5) ”这 一 步 真 正 挂 载 了 /code 目 录 。 挂 载 成 功 后 ， 服 务 器 把 该 目录 的 fe 
handle 告 诉 客户 端 〈 要 点 开 详细 信息 才能 看 到 File handle) 。 

(6) ”在 我 看 来 这 一 步 没有 必要 ， 因 为 之 前 已 经 试 连 过 NFS 了 ， 再 测试 一 
次 有 何 意 义 ? 我 猪 是 开发 人 员 不 小 心 重复 调用 了 同一 函数 ， 但 因为 没有 
抓 包 ， 所 以 测试 人 员 也 没有 发 现 这 个 问题 。 

(7) 客户 闹 获 得 了 该 文件 系统 的 大 小 和 空间 使 用 订 等 属性 。 我 们 在 客 记 


端 上 执行 df 就 能 看 到 这 些 信息 。 

(8) 这 一 步 又 是 重复 操作 ， 更 让 我 怀疑 是 开发 人 员 的 疏忽 。 这 个 例子 也 
说 明了 Wireshark 在 辅助 开发 中 的 作用 。 

(9) 这 个 file handle 也 需要 从 包 的 详细 信息 里 才能 看 到 。 就 如 之 前 提 到 过 
的 ，NFS 操 作文 件 时 使 用 的 是 file handle, 所 以 要 先 通 过 文件 名 找到 其 file 
handle， 而 不 是 直接 读 其 文件 名 。 如 果 一 个 目录 里 文件 数量 巨大 ， 获 取 

file handle 可 能 会 比较 费时 ， 所 以 建议 不 要 在 一 个 日 录 里 存放 太 多 文 
件 。 

(10) 在 创建 一 个 文件 之 前 ， 要 先 检 查 一 下 是 否 有 同名 文件 存在 。 如 果 没 
有 才能 继续 写 ， 如 果 有 ， 要 询问 用 户 是 否 履 新 原文 件 。 

(11) 这 是 COMMIT 操 作 。 对 于 async 方 式 的 WRITE Call， 服 务 器 收 到 Call 
之 后 会 在 真正 存盘 前 就 回复 WRITE Reply， 这 样 做 是 为 了 提高 写 性 能 。 

那么 ， 客 户 端 怎 么 知道 哪些 WRITE Call 已 经 真正 存盘 了 呢 ? COMMIT 操 
作 就 是 为 此 而 设计 的 。 只 有 COMMIT 过 的 数据 才 算 真正 写 好 。 


举重 各 轻 


“一 小 时 内 给 你 从 复 


在 臣 侠 小 说 里 看 到 过 一 段 话 ， 大 意 是 练习 乍 门 收 道 的 功夫 ， 很 快 便 
能 小 有 成 焉 ， 但 永远 成 不 了 高 手 。 而 名 门 正派 的 武功 虽然 入 门 艰 六 ， 进 
步 绥 慢 ， 却 是 成 为 一 代 宗 师 的 必由之路 。 这 段 话 深 得 我 心 ， 学 习 网 络 也 
只 能 老 老 实 实地 去 参透 各 个 协议 ， 才 能 达到 最 局 境界 。 研 究 协 议 的 过 程 

虽然 档 燥 绥 慢 ， 但 丰 不 可 或 号 。 

有 的 技术 人 员 豆 欢 重 局 一 下 或 者 乱 试 一 通 来 矶 运气 ， 昌 然 也 有 成 功 
的 时 候 ， 但 是 概率 很 低 。 rr nn 
班 也 许 更 加 合适 。 我 最 近 处 理 过 的 一 个 案例 就 很 好 地 说 明了 这 一 点 

事情 是 这 样 的 : 现场 工程 师 搭 建 了 一 台 文 件 服务 ti 
译 ， 可 是 客户 端 一 直 挂 载 不 上 ， 每 次 笑 试 都 收 到 同一 个 报错 “access 
denied 和 server while mounting...”， 如 图 1 所 示 。 


paddy@localhost:~ 
i Edit View Search Terminal Help 


[rooct@tocalhost =] mpunt -8 udp,nolock 19.32.196.,77: /paddynnfs paddynmfs 
mount .nfs: access denied by server while mounting 18.32.196.77:/paddynmfs 


图 1 





现场 工程 师 检 栓 了 服务 硕 和 客户 端的 所 有 配置 ， 但 实在 找 不 出 原 
因 ， 于 十 这 个 问题 束 抑 了 好 几 天 。 当 他 焦急 地 打 我 电话 时 ， 据 说 客户 已 
经 彻底 失去 耐心 了 ， 在 机 房 里 哆 叶 ，“] am going to throw the box out of 
the window”。 我 只 好 安 感 他 说 , “放心 吧 ， 帮 我 抓 一 个 网 络 包 ， 一 小 时 
内 给 你 答复 。 

之 所 以 敢 承 话 这 么 短 的 时 间 ， 且 因为 我 已 经 处 理 过 上 百 个 医 似 的 问 
题 。 目 从 用 Wireshark 学 习 了 NEFS 的 协议 细 贡 后 ， 我 可 以 用 和 它 很 快 地 解雇 
任何 挂 载 问 题 ， 至 今 没 有 失手 过。 其实 一 小 时 还 是 保守 估计 ， 一 般 5 分 
钟 殴 网。 

现场 工程 师 很 快 就 把 配置 信息 和 网 络 包 传 过 来 了 : 


服务 占 IP: 

10.32.106.77 

NFS 共 至 的 访问 控制 : 

/paddynmfs 192.168.26.139 (rw) 

## 只 允许 192.168.26.139 读 写 ， 其 他 客户 端 不 能 挂 载 
客户 端 IP〈( 见 图 2) : 


地 rothlocalhost:~ 


[rocte@localhost =~] ifconftig 
Etho Link cncaoep:Ethernet HHnaddr 00:0C:29:CB:74+:29 
inet eddr;1i9d2.168.26.139 Bcast:1id2.168.26.255 Mask:255.2035.200:0 
i1nerd addr: LeBd: 200:29rFr: Lech:T4a9/64 Jc0pe: Link 
UP BROADCAST RONNING MULTICAST MIU:1S00 Metric:1 
Re packets td92237 erroreD dropped:D overruns:D frame':o 
TR ackets: Ti285 errore0d dropped:D overrunad carrierri 
SDl11isions:d tnogueuelen:1i000 
RX bytes:188580400 |1i79.8 MiB) TX bytea:8707B4133 (6830 


图 2 





现场 工程 师 的 排查 过 程 如 下 所 示 。 
[root@localhost ~]#telnet 10.32.106.77 111 
Trying 10.32.106.77.. 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]#telnet 10.32.106.77 1234 
Trying 10.32.106.77.. 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]#telnet 10.32.106.77 2049 
Trying 10.32.106.77.. 
Connected to 10.32.106.77 (10.32.106.77). 
[root@localhost ~]# showmount -e 10.32.106.77 
/paddynmifs 192.168.26.139 
作为 “ 健 运 气 ? 步 骤 ， 现 场 工程 师 把 客户 端 和 服务 器 都 重 局 过 了 ， 但 
结果 还 是 一 样 。 
我 仔细 检查 完 以 上 信息 ， 结 论 和 现场 工程 师 一 样 服务 器 和 客户 
站 的 配置 都 没 问 题 。 而 且 从 排 租 过 程 还 可 以 知道 


。 从 telnet 的 输出 结果 可 见 portmap CI 、mount (1234) 以 及 
NFS 《2049) 进程 所 对 应 的 交口 都 是 可 达 的 ; 这 说 明 网 络 是 通 的 ， 没 有 
防火 墙 之 类 的 设备 拦截 了 挂 载 请 求 ; 


。 从 showmount 的 结果 可 以 看 到 ， 挂 载 时 指定 的 共 且 路径 也 是 正确 
的 。 


到 这 里 我 也 有 点 迷惑 ， 一 时 想 不 出 问题 出 在 哪里 。 疯 读 以 下 内 容 之 
J epi 下 ， 还 有 什么 因素 可 能 导致 了 挂 载 失败 ? 
过 好 杀手 铀 没有 出 ， 我 用 Wireshark 打 开 在 服务 器 上 抓 到 的 包 ， 然 后 


用 192.168.26.139 过 滤 了 一 下 ， 如 图 3 所 示 。 
3 DI 


File Edt View Go tapture Pr totsties Telephony Too WSsinternal Hep 
避 宙 闷 蚀 考 | 电 国 其 汇 吕 | 站 书 绅 史 罕 主 || 时 |@| 急 忆 加 | 八国 


Filter: ipaddreql9l6826439 EPresson Clear Apply 


四 mount_faBure.cap 
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图 3 


结果 苋 然 是 空 的 ! 这 是 怎么 回 事 ? 我 义 换 了 一 个 过 小 表达 式 ， 把 所 
人 a 





从 图 4 中 可 以 看 出 ， 客 户 端 10.32.200.45 发 送 了 mount 请 求 ， 但 被 服 
务 器 10.32.106.77 拒 绝 了 ， 这 倒 符 合 “Access Denied” 的 症状 。 等 等 ， 客 户 
端的 了 P 不 应 该 是 192.168.26.139 吗 ， 怎 么 变 成 10.32.200.45 了 ? 这 时 候 我 
悦 然 大 悟 : 两 个 网 络 之 间 估 计 存 在 NAT (Network Address 
Translation ) ， 当 客户 端 发 出 的 请 求 经 过 NAT 设 备 时 ，Source IP 被 改 挥 


了 (图 5 显示 了 这 个 过 程 )。 









SrC: 10.32.200.43 






sre 192.168.26.139 





客户 端 





Dst: 192.168.26.139 | Dst: 10.32.200.453 


由 于 服务 器 上 的 访问 控制 只 允许 192.168.26.139 访 问 ， 所 以 来 自 
10.32.200.45 的 挂 载 请 求 自 然 被 拒绝 了 。 


我 把 分 析 报 告 友 给 现场 工程 师 。 他 和 客户 沟 退 之 后 ， 末 然 证 实 了 我 


的 分 析 。 最 终 把 服务 上 融和 客户 问 连 到 一 个 网 络 中 束 挂 载 上 了 。 
实施 部 门 的 经 理 友 来 一 封 热 情 洋 注 的 感谢 信 ， 这 让 我 想起 几 年 


一 次 得 到 Patrick 的 帮助 时 ， 我 也 表达 过 同样 的 感激 之 情 。 其 实 我 们 还 应 
该 感谢 的 ， 是 Gerald Combs。 假 如 没有 他 的 Wireshark， 我 可 能 至 今 还 不 
理解 NFS 的 挂 载 过 程 ， 更 不要 说 一 小 时 内 束 找 出 问题 。 那 天 我 把 MSN 仿 


名 档 改 成 了 “Life is tough, but Wireshark makes it easy”。 


午夜 铃声 


“和 怜 铃 ...... 呆 铃 铃 ..…...” 一 阵 手机 铃声 打 靳 了 我 的 美梦 。 

我 民 愧 中 按 下 接听 键 ， 葛 然 是 老板 的 声 首 , “ 阿 满 ， 真 不 好 芋 思 ， 
这 么 有 晚 还 打 你 电话 。” 一 番 宕 蛤 之 后 ， 有 J 了 下面 的 对 话 。 
老板 : “我 司 在 为 xx 电视 台 实 施 Isilon， 现 场 团队 被 一 个 旋 性 能 的 问题 卡 
了 好 几 天 了 。 上 所 以 美国 总 部 刚刚 打 电 话 给 我 ， 和 希望 一 位 情 网 络 的 专家 能 
尽快 飞 到 北京 ， 你 看 .….….…. 
我 :“ 我 看 最 近 招 的 两 位 CCIE 都 人 不错， 让 他 们 去 锻炼 一 下 啤 。 我 明天 要 
搬家 ， 尖 姿色 在 及 展 。” 
老板 :“ 这 个 项 目 对 我 们 太 重 要 了 ，# 半 96*@SA&. (此 处 举 略 300 
字 ) 你 完全 不 用 担心 ， 我 会 小 几 个 人 答 你 搬家 。” 
我 : 《 赶 在 老板 派 人 大 我 照顾 老 姿 之 前 ) “好 吧 ， 我 准备 一 下 。” 

挂 了 电话 ， 赶 紧 搜 索 一 下 Isilon， 才 知道 是 我 司 最 近 收 购 的 NAS， 
以 性 能 时 越 闭 称 。 是 什么 问题 能 让 实施 团队 卡 住 好 几 天 呢 ? 看 看 时 钟 已 
经 是 凑 晨 2 点 了 ， 便 让 现场 的 工程 师 先 把 网 络 包 传 上 来 再 说 。 

5 点 钟 起 床 ， 司 机 已 经 等 在 槛 下 了 《我 司 对 竺 甲 方 的 态度 和 效率 ， 
弟 第 让 员工 们 妨 忌 〉。 一 路 疾 驶 到 办 公 室 ， 网 络 包 也 已 经 上 传 完毕 。 我 
用 Wireshark 粗 略 一 看 ， 发 现 很 多 包 发 生 了 晶 传 (Retransmission) ， 而 
且 还 有 大 量 乱 序 (Out-Of-Order) 。 下 面 是 Wireshark 的 分 析 结 果 。 

重 传 〈 见 图 1) : 


ad| Wireshatkt: 1066309 Erpest Infas 


攻 ER 
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乱 序 〈 见 图 2) : 
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我 的 第 一 反应 便 是 乱 序 导 致 了 重 传 ， 从 而 影响 了 性 能 。 乱 序 为 什么 
会 导致 重 传 呢 ? 本 书 的 TCP 相 关内 容 其 实 已 有 详细 解释 ， 下 面 册 简单 介 
绍 一 下 。 

在 正常 情况 下 ， 网 络 包 到 达 接 收 方 时 的 Seq 写 应 该 是 顺序 的 ， 比 如 
在 每 个 包 长 度 为 1460 的 情况 下 ，Seq 号 可 能 是 这 样 的 : 1460，2920， 
4380...... 因 此 接收 方 能 算出 下 一 个 包 的 Seq 写 应 该 是 什么 。 比 如 4380 之 
后 应 该 是 4380+1460=5840， 假 如 收 到 的 不 是 5840， 接 收 方 束 知道 包 序 乱 
了 。 这 时 它 应 该 回复 一 个 包 给 发 送 方 ， 说 “我 要 的 是 5840〈 即 Ack 
5840) ”。 如果 接 下 来 收 到 的 包 仍 然 不 是 5480， 那 接收 方 束 再 回复 一 
次 “我 要 的 是 5840?”。 

而 对 于 发 送 方 来 说 ， 持 续 收 a 到 “我 要 的 是 5840” 可 能 意味 看 5840 跑 到 
其 他 包 后 面 了 ， 也 可 能 意味 着 5840 已 经 丢失 。REFC 里 这 样 定义 : 如 果 发 
送 方 收 到 3 个 及 以 上 重复 的 “我 要 的 是 xz”， 即 可 认为 包 x 已 经 丢失 ， 应 当 
启动 快速 重 传 。 图 3 演示 了 这 个 过 程 。 


4380) [ 
7300 
S/OU 
10220) 
| ] 580 
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发 送 方 接收 方 


图 3 
最 终 接收 方 会 收 到 两 个 一 样 的 Seq=5480， 即 乱 序 了 的 原始 包 ， 还 有 


一 个 重 传 包 。 其 中 第 二 个 到 达 的 包 相 当 于 浪费 了 。 
我 在 Wireshark 上 随机 挑 出 几 个 重 传 包 ， 友 现 方 回 都 是 从 Isilon 到 


Windows 的 ， 恰 好 符合 谈 性 能 委 的 症状 。 分 析 到 这 里 ， 我 仿佛 看 到 一 丝 
明光。 一 般 来 说 ， 乱 序 可 能 是 由 有 发 送 方 或 者 网 络 设备 导 致 的 ， 我 还 应 访 
在 有 进 方 抓 包 进 一 步调 得 。 但 因为 手头 上 只 有 在 接收 方 抓 的 包 ， 上 所 以 只 
能 到 了 现场 再 说 了 。 在 赶 往 机 场 的 路 上 ， 我 草拟 了 一 个 计划 。 

1. 把 Isilon 和 Windows 客 户 问 连 到 同一 台 空 用 的 交换 机 ， 尺 量 排 除 
网 络 设 备 

的 影 啊 。 

2. Isilon 和 其 他 服务 需 一 样 ， 应 该 有 类 似 NIC teaming 的 功能 。 根 据 
我 的 经 验 ， 乱 序 有 时 候 就 是 由 teaming 导 致 的 ， 可 以 党 试 关 闭 。 我 不 久 
前 还 磁 到 过 Large Segment Offload (LSO) 导致 的 乱 序 ， 也 是 一 个 考虑 
央 系 。 

3. 实在 不 行 ， 就 在 Isilon 和 Windows 上 同时 抓 包 ， 两 者 一 对 比 便 能 
及 现 很 多 问题 。 

到 了 北 各 已 经 是 下 午 了 。 和 几 位 来 日 中 国 香 港 、 关 国 、 和 日 本 的 工 
程 师 边 吃 边 聊 。 原 来 他 们 这 几 天 做 过 很 多 方面 的 笠 试 ， 包 括 我 计划 中 的 
第 1 步 ， 但 是 性 能 没有 任何 改变 。Windows 客 户 问 也 换 过 几 台 ， 但 结 
都 友 不 多 。 目 前 来 看 网 络 设备 和 客户 六 部 不 是 租 贷 ， 估 计 原 因 束 出 在 
Isilon 上 了。 也 许 明 天 关闭 Isilon 上 的 NIC teaming 和 LSO， 问 题 束 解决 了 
吧 ? 这 个 时 候 我 还 是 挺 乐 观 的 。 

第 二 天 一 六 早 便 赶 到 了 xx 电视 台 的 新 大 槛 ， 比 约定 时 间 早 了 3 小 
时 。 这 和 古 我 第 一 次 体会 到 现场 工程 师 的 溯 吉 一 所 有 操作 都 要 等 竺 客户 审 
批 ， 搭 个 测试 环境 束 花 了 半天 时 间 ; 而 且 五 六 个 人 只 能 共用 一 台电 脑 ， 
我 在 操作 的 时 候 其 他 工程 师 束 只 能 等 看 ; 最 可 怕 的 是 机 房 里 的 冷气 ， 生 
了 几 个 小 时 之 后 实在 招 染 不 住 。 

地 好 一 切 都 在 按 计 划 进 行 。 我 们 终于 在 Isilon 上 找到 Large Segment 
Offload 和 NIC teaming 的 开关 ， 并 满怀 希望 地 关闭 了 它们 。 当 我 启动 测 
试 脚本 的 时 候 ， 几 位 饱 受 折 诬 的 现场 工程 师 都 竣 过 来 看 ..….... 可 惜 结果 令 
人 大 跌眼镜 一 计 性 能 比 之 前 还 者! 我 顿时 知 得 非常 尴 汶 ， 对 看 等 每 我 下 


一 步 建 议 的 同事 们 ， 只 能 说 移 抓 个 包 看 看 吧 。 这 一 抓 包 更 是 意外 ， 居 然 
看 个 到 乱 序 的 包 了 1! 可 见 我 之 前 的 猜测 没有 铬 ， 乱 序 是 由 NIC teaming 或 
者 LSO 寻 致 的。 但 为 什么 消除 了 乱 序 之 后 性 能 没有 改善 呢 ? 再 看 看 重 传 

到 这 里 只 剩 下 一 个 解释 了 一 重 传 并 非 乱 序 引 起 的 ， 也 融 是 说 从 一 开 
台 惑 走 错 方 向 。 我 不 得 不 一 个 人 坐 到 角落 里 ， 重 新 研究 昨天 全 到 的 网 络 
包 。 妆 我 逐个 检 枉 乱 序 的 包 时 ， 果 然 看 到 了 一 个 很 有 趣 的 现象 。 如 图 4 
所 示 ， 虽 然 乱 序 的 包 很 多 ， 但 只 是 相 邻 两 个 包 的 颠倒 ， 因 此 接收 方 只 肥 
出 了 1 个 “我 要 的 是 x”， 而 不 会 趴 满 3 个 以 上 相同 的 “我 要 的 是 x? 来 触发 重 
传 。 这 了 吏 解 释 了 为 什么 重 传 不 是 由 乱 序 导致 的 。 


小 幅度 乱 序 不 触发 快 





吕 重 传 


5840 
4380 
7860 
7300 
11680 
10220 





发 





关 方 接收 方 


图 4 


举 个 更 通俗 的 例子 ， 当 序号 为 1、2、3、4、5、6 的 一 系列 包 到 达 接 
收 方 时 ， 如 果 次 序 乱 成 了 2、1、4、3、6、5， 是 不 会 触发 快速 重 传 的 ; 
但 如 果 乱 成 2、3、4、5、6、1， 就 会 导致 重 传 。 

再 分 析 消 除 乱 友 后 在 接收 方 抓 到 的 网 络 包 ， 现 象 就 更 加 有 趣 了 。 如 
图 5 所 示 ， 接 收 方 明明 收 到 了 Seq 20440 (Frame No. 3) ， 但 它 竟然 发 送 


了 4 个 “Ack 204402? 给 发 送 方 ， 从 而 促使 及 进 方 重 传 了 Seq 20440 (Frame 
No. 13) 。 


Destination 


Ack 27740 


Seg 20440 


这 个 现象 实在 太 “ 不 科学 ”了 。 按 理 说 这 个 包 是 在 接收 方 抓 的 ， 
Wireshark 上 也 已 经 显示 了 “Seq 20440”， 就 意味 着 接收 方 己 经 收 到 。 为 
什么 还 会 连 发 4 个 Dup Ack 呢 ? 我 百 思 不 得 其 解 ， 不 过 已 经 隐约 感觉 到 希 
望 一 只 要 解 开 这 个 谜团 ， 问 题 或 许 束 能 解决 了 了 。 机 房 里 强劲 的 冷气 让 我 
有 些 分 神 ， 于 是 我 独自 跷 到 走廊 上 ， 从 头 开 始 分 析 。 

我 回忆 起 RFC 中 关于 快速 重 传 的 描述 :“ 当 接收 方 收 到 比 期 望 值 大 
的 Seq 时 ， 就 要 加 发 送 方 Ack 它 期 望 的 Seq 值 .…………” 根 据 这 个 理论 ， 难 道 接 
收 方 在 收 到 20440 之 前 ， 已 经 收 到 了 21900、23360、24820 和 26280 这 4 个 
包 ? 从 Wireshark 里 看 20440 明 明 是 排 在 这 4 个 包 前 面 的 ! 





会 不 会 是 20440 本 里 的 checksum 有 问题 ， 被 接收 方 抛弃 了 呢 ? 再 看 
看 图 5 中 最 后 两 个 包 ， 重 传 的 Seq 20440 (Frame No. 13) 到 达 接 收 方 之 
前 ， 接 收 方 已 经 回复 了 “Ack 27740”(Frame No. 12) ， 这 表明 接收 方 收 
到 了 27740 之 前 的 所 有 包 ， 包 括 20440。 也 就 是 说 ，20440 真 的 是 被 移 到 
26280 后 面 了 ， 而 不 是 因为 checksum 无 效 被 抛弃 。 

那 是 什么 因素 导致 接收 方 把 20440 移 到 26280 后 面 呢 ? 目前 我 不 得 而 
知 ， 但 TCP/P 是 分 层 协作 的 ， 也 许 是 网 络 层 把 包 交 给 TCP 层 时 打 乱 了 。 

分 析 到 这 里 ， 可 以 肯定 重 传 的 根本 诛 因 就 是 接收 方 目 身 的 乱 序 ， 而 
网 络 设备 和 Isilon 都 被 冤枉 了 。 这 是 我 第 一 次 看 到 此 类 现象 ， 不 但 颠 履 
了 我 昨天 的 分 析 结 果 ， 而 且 难 以 说 服 现场 工程 师 和 客户 。 他 们 已 经 测试 
了 7 台 客 户 端 ， 但 结果 都 是 一 样 的 ， 难 不 成 7 台 都 出 了 同样 的 问题 ? 这 概 
率 低 得 令 人 难以 置信 。 接 下 来 就 是 一 场 场 辩 论 ， 电 视 台 请 来 了 他 们 的 网 
络 专家 ， 和 希望 说 服 我 进一步 检查 Isilon。 我 无 法 向 他 解释 为 何 所 有 客户 
问 都 有 同样 的 问题 ， 他 也 不 能 反驳 Wireshark 上 显示 的 证 据 。 一 直 拉 锯 到 
夜里 12 点 都 没有 吃 上 饭 ， 一 位 同事 已 经 出 现 了 低 血 糖 症 状 。 还 好 最 后 查 
到 一 个 重要 信息 ， 原 来 那 7 台 客 户 疹 都 是 用 同一 张 ghost 盘 安 钱 的， 客户 
组 于 让 步 ， 答 应 明天 新 痛 7 台 客户 奖 供 我 们 测试 。 但 同时 也 有 一 个 要 
求 ， 明 早 必须 提供 一 个 官方 的 分 析 报 告 ， 证 明 的 确 是 客户 端 导 致 的 问 
题 。 

草草 吃 完 上 晚饭， 已 经 是 凌晨 1 上 点。 酒店 非 常 贴心 ， 为 我 准备 好 了 巧 
殉 力 ， 拆 好 拖鞋 ， 甚 至 掀 好 了 个子 ， 可 情 这 些 我 都 没有 机 会 享受 。 和 等 与 
完 分 析 报 告 ， 已 经 到 了 竣 展 3 点 半 。 没 睡 下 多 信 ,，morning call 又 来 
了 ..…….. 再 次 感叹 现场 工程 师 的 位 吉 ， 这 只 是 我 第 三 个 晚上 没 睡 好 ， 而 他 
们 估计 已 经 有 一 周 了 。 我 睡 眼 慢 愉 地 到 了 电视 台 门 口 ， 远 远 看 到 树林 里 
似乎 有 家 咖啡 店 ， 像 看 到 救命 稻草 一 样 直 奔 过 去 。 到 了 近 处 才 肥 现 
是 “Post Office”， 远 看 还 真 像 是 coffee...... 

现场 工程 师 手 脚 哄 利 ， 很 快 束 搭 好 新 的 环境 。 到 早上 10 点 钟 我 们 叉 
一 次 启动 测试 脚本 ， 这 一 次 每 台 的 读 性 能 都 达到 100MB/s 以 上 ， 大 大 超 


过 了 客户 80MB/s 的 预期 。 现 场 的 工程 师 异 党 兴奋 ， 给 测试 结果 扫 照 、 
截屏 ， 攻 至 担 了 一 段 视频 。 他 们 为 这 个 项 目 压 抑 太 久 了 ， 需 要 好 好 庆 
视 。 

而 我 也 痛 起 笔记 本 ， 癌 这 栋 千 型 诡异 的 建筑 、 癌 这 个 琳 怪 的 问题 告 
别 ， 勿 义 赶 往 首 都 机 场 。 家 里 还 有 有 友 烧 的 老区 ， 没 搬 完 的 家 .……. 


深 闫 功 与 名 


每 当 我 要 写 一 个 真实 的 Wireshatk 采 例 时 ， 感 光束 像 在 目 我 表扬 。 这 
实在 不 符合 阿 满 低 调 的 个 性 ， 但 是 没 办 法 ， 谁 让 Wireshark 这 么 神奇 呢 ? 
不 久 前 我 处 理 的 一 个 Data Domain 项 目 ， 便 是 极 好 的 例子 。 

我 之 前 对 Data Domain 的 了 解 并 不 多 ， 只 知道 是 普林斯顿 大 学 一 位 
伐 人 教授 的 发 明 ， 后 来 被 我 司 收购 了 。 所 以 当 项 目 经 理 打 我 电话 时 ， 也 
是 听 得 一 头 务 水 。 大 概 了 解 到 的 症状 是 多 台 AIX 同 时 往 Data Domain 读 瑟 
数据 (如 图 1 所 示 )〉。 写 的 时 候 性 能 都 很 好 ， 能 超过 90MB/s; 但 读 的 时 
候 性 能 却 很 和 震 ， 在 20MB/Ms 以 下 。 驻 场 的 团队 已 经 耗 在 上 面 好 几 天 了 ， 

却 一 直 没 有 进展 ， 留 给 我 的 时 间 已 经 不 多 了 。 









Data Domaln 


图 1 


鉴于 项 目的 案 迫 性 ， 我 挂 了 电话 便 了 立即 出 友 。 还 好 这 个 客户 的 数据 
中 心 在 上 海 邓 区 ， 我 得 以 在 路 上 仔细 分 析 。 

1. 一 般 存 储 设备 都 是 读 比 写 快 ，Data Domain 应 该 也 不 例外 。 目 前 
的 现象 是 读 比 写 慢 得 多 ， 所 以 根本 原因 应 该 不 在 Data Domain 本 喘 。 

2. 网 络 很 值得 怀疑 。 一 般 存 储 问 的 市 守 大 ， 客 尸 病 的 市 览 小 。 读 
文件 时 数据 从 大 市 宽 进 入 小 市 锅 ， 吏 如 同 大 河水 流入 小 河 ， 有 可 能 会 滋 
出 《表现 在 网 络 上 吏 是 拥堵 ) 而 导 人 至 性 能 问题 。 写 文件 时 方 同 相反 ， 所 
以 拥 才 概率 低 ， 性 能 就 会 好 一 些 ， 正 好 符合 这 个 采 例 的 症状 。 


3. 只 要 在 两 端 各 抓 一 个 网 络 包 ， 束 能 证 实 我 的 猜测 。 

中 午 12 点 ， 终 于 到 达 数 据 中 心 。 我 让 司机 在 门口 等 一 会 ， 佑 计 很 快 
束 能 出 来 了 〈( 庙 有 有 点 温 酒 斩 华 雄 的 气概 )。 结 果 见 到 客户 时 ， 人 家 说 午 
睡 时 间 到 了 ， 一 个 小 时 后 再 成 ， 说 完 便 从 果子 确 下 拉 出 打 登 床 来 。 我 只 
能 感叹 同行 不 同 命 一 忙碌 如 我 ， 能 体 证 夜间 睡 7 小 时 吏 不 钳 了 ， 哪 里 敢 
奢望 午睡 ? 只 好 叫 司 机 先 回 家 ， 下 午 再 来 接 我 。 

好 不 容易 等 到 客 尸 收集 好 网 络 包 ， 用 Wireshark 打 开 一 看 ， 末 然 友 现 
了 好 多 单传 (如 图 2 所 示 )〉 。 曾 传 对 性 能 的 影响 是 极 大 的 ， 即 便 是 0.5% 
的 比例 也 会 使 性 能 大 幅度 下 降 。 
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我 随机 看 了 几 个 重 传 包 ， 肥 现 方 同 都 是 从 Data Domain 到 AIX 的 。 说 
明 这 些 包 从 Data Domain 出 来 之 后 ， 在 路 上 丢失 了 ， 最 终 没 有 a 到达 AIX。 
Data Domain 因 为 一 直 没 有 等 到 AIX 的 确认 包 ， 所 以 只 能 选择 重 传 。 

这 就 意味 看 我 之 前 在 路 上 的 推测 是 正确 的 ， 网 络 上 存在 租 贷 。 客 三 
也 确认 AIX 端 的 带宽 只 有 存储 端的 10， 是 可 能 有 问题 。 不 过 由 于 网 络 
项 目 已 经 实施 完毕 ， 无 法 变动 ， 所 以 只 能 从 Data ”Domain 和 AIX 上 想 办 
去 

明明 知道 问题 发 生 在 网 络 上 ， 却 要 到 存储 新 和 客户 闹 上 去 想 办 法 ， 

不 是 有 点 头痛 医 脚 的 感 党 ? 但 这 的 确 是 可 行 的 ， 我 至 少 能 想到 三 个 方 
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方案 1. 把 Data Domain 的 发 送 窗口 强制 成 较 小 的 值 ， 这 样 每 次 发 出 
去 的 数据 量 就 少 一 些 ， 拥 罕 的 概 深 也 减 小 了 。 束 像 大 河 里 流 的 水 量 很 
少 ， 即 便 关 入 小 河 也 不 会 宴 出 来 一 样 。 肥 得 慢 当 然 对 性 能 有 影响 ， 但 由 
于 避 侈 了 丢 包 ， 上 所 以 总 性 能 反而 有 所 提升 。 访 方案 的 缺点 是 限制 了 Data 
Domain 给 所 有 网 络 设备 发 送 数据 的 速度 ， 不 仅 是 针对 AIX。 

方案 2. 把 AIX 的 接收 窗口 强制 成 较 小 的 什 。 这 样 Data “Domain 给 
AIX 传 数据 时 的 及 送 窗口 殉 被 限制 了 ， 而 且 给 其 他 客户 内 有 友 数 据 时 不 受 
有 影响。 但 该 方案 的 缺点 是 限制 了 AIX 从 所 有 网 络 设备 接收 数据 的 速度 ， 
不 只 是 针对 Data Domain。 

以 上 两 个 方 采 都 需要 选 定 一 个 较 小 的 窗口 值 ， 这 个 值 要 怎么 宽 出 来 
上 呢 ? 图 3 是 一 个 于 包 的 例子 ， 发 这 方 一 口气 发 出 6 个 包 ， 但 其 中 最 后 一 个 
于 失 了 ， 最 后 村 仅 了 超时 草 传 。 





发 送 广 接收 廊 


图 3 


从 图 3 中 可 以 估算 出 丢 包 时 的 拥塞 点 大 约 为 前 5 个 包 所 携带 的 字 节 
数 。 只 要 按 这 个 方法 随机 找 出 多 个 拥塞 点 ， 就 大 概 能 选 定 合适 的 窗口 值 
本 

方案 3. 图 2 中 的 Wireshark 截 图 显示 章 传 的 包 为 5190、5192、 
5194......5230 ” (20 个 ) ， 而 且 这 些 重 传 包 都 是 连续 的 〈 图 4 显示 了 其 中 


Na, Time SoUrce Bedtination Frotocol ImFD 


SLD 0.313843 10.3.130.1]i5 10.3.128.170 RP [TEP Retransmission] continuyuatiaon 
IS1 oO.313853 3 因 闻 昌 且 这 全 攻 玉 呈 EE 吉 TCP lu23 > nfs [ack] Seg-=14137? Ack=61I8097 
so2 0,.314132 i168.3.130.1i5 10.3.128.170 RPC [TEP Retransmission] continuyation 
93 各 ,3141 94 io0.371218 T7270 T1003.130.135 TCP 023 > nfs [CaCK] Seg=14137 Ack=6109545 
5 们 ,1417 10.3.130.135 10.3.128.170 RP [TEP petransmission] continuation 
二 名 5 人 1d4181 1o0.3.1298.170 T0323.130.135 TCP i023 > nfs [LACK] Seq-14137? Ack-6110993 
5 身后 总 1 了 1.3.13D. 二 35 10.3.128.170 RPE [TEP Retransmission] continuation 
Law DO. 2]dd32 jo.3.]1293.]70 10.3.130.135 TCP 1023 » nfs [ACK] Segq=14137 Ack=6112d441 
51 8S OO. 21d4dd5 10.23.1]30.135 10.23.128.170 RPC [TEp Retransmission] continyatian 
L999 DO.31d450 10.3.1298.]70 10.3.130.135 TCDP 1023 > nfs [CE] Segq=1413? Ack=6113989 
200 DD.314462 15.3.130.135 10.3.128.170 RPC [TEP Retransmission] continuation 


图 4 


但 是 当 我 检查 接收 方 的 网 络 包 时 ， 发 现 其 实 只 有 5190 的 原始 包 古 真 
下 丢失 了 ， 其 他 的 包 都 到 达 J 了 接收 廊 ， 所 以 没 必要 重 传 。 那 为 什么 发 运 
方 要 重 传 这 么 多 呢 ? 这 是 因为 发 送 方 友 现 5190 的 原始 包 丢 失 后 ， 无 法 确 
定 后 续 的 其 他 包 是 否 也 丢 了 ， 机 而 接收 方 虽 然 知 道 丢 
了 哪些 包 ， 却 没有 任何 机 制 可 以 告知 发 送 方 。 这 个 问题 其 实在 1996 年 的 
RFC 2018 中 整 已 经 给 出 了 解决 方 宁 ， 它 束 obi Acknowledgment， 
简称 SACK。 在 接收 方 和 发 送 方 都 启用 SACK 的 情况 下 ， 接 受 方 可 以 告 
ob 但 是 我 收 到 了 其 他 的 。” 因 此 
发 送 方 只 需 重 传 5190 即 可 。 在 启用 了 SACK 的 网 络 包 中 ， 我 们 能 在 Dup 
Ack 包 里 看 到 这 些 信 息 。 图 5 是 在 一 个 启用 SACK 的 环境 中 抓 的 包 ， 最 辰 
部 就 是 SACK 信 息 。 


SoUrce Destination Time Pretoca Infa 
a 10.114.140-100 10.114:130:100 2014-0i-15 09:56:24.139B22 -TEP [TEF pup CK -13 ] ddi-tcp-l1 二 直线 54 [FACKR] Segq=1105 Ack=98L951 
35 4. 11410 id0 10.114.1430.100 2013-=01- Ee D056:29.143728£ TEp CC [rcp mip ACK 1331#2] ef -TEp-1 3 [ACK] Seq=1105 ACKk=991851 
3 万 10， 工 4， i140. i000 T0114:1I0:T0 2013-01-15.090556:29 T4372 TEP [Tepe Daup 坊 所 民 卫 守 1 要 4] 村 1 下 cp-1 i = FAKR] Seqg=11ds Actk=d0951 
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mmo 
+ er i 了 4 二 二 3 并 下 种 工 瑟 下 Cr 11336333 
pt op 


NO-0perarcion CNopy 
SACK: D02461- os 
left edge = 992461 (relatiyv 
right edge = S98175 Crelatiwve) 


图 5 


把 图 5 中 的 “Ack=991851” 和 “SACK=992461-996175” 两 个 信息 综合 起 
来 ， 发 送 方 就 知道 991851 一 992460 的 包 没 有 收 到 ， 而 后 面 的 992461 一 
996175 的 包 上 反 而 已 经 收 到 了 。 

因为 本 案例 中 存在 大 量 不 必要 的 重 传 ， 而 且 Dup Adk 包 中 也 没有 
SACK 信 息 ， 已 经 足以 说 明 SACK 没 有 启用 。 我 决定 先 不 限制 发 送 窗 
中， 把 SACK 打 开 再 说 。 是 否 启 用 SACK 是 在 TCP 三 次 握手 时 协商 决定 
的 ， 如 图 6 中 方 框 内 的 参数 所 示 。 只 要 双方 中 有 一方 没 有 


i PERM= 1”, DN bs SACK。 
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图 6 


我 们 分 别 检查 了 DataDomain 和 AIX， 果 然 发 现 AIX 上 默认 关闭 了 
SACK。 于 是 客户 在 AIX 上 运行 了 no -p -o sack=12” 人 命令， 旋 性 能 立即 残 
凯 升 到 90MB/s 以 上 ， 远 远 超 过 项 目 需求 。 有 了 这 个 结果 ， 我 也 不 考 感 
方案 1 和 方案 2 了， 毕竟 都 有 副作用 。 

在 他 们 询问 我 的 名 字 前 ， 我 已 经 天 上 和 车门 ， 只 留 下 一 个 伟 尾 的 背 
影 ， 深 媚 功 与 名 。 其 实心 里 还 有 一 个 息 仿 : 为 什么 他 们 就 可 以 午睡 ? 


柑 着 对 于 


很 多 IT 圈 的 前 奉 都 有 过 吉 不 堪 言 的 经 历 ， 尤 其 是 在 运 维 部 门 。 为 了 
挽救 系统 ， 不 少 人 曾经 在 冰冷 的 机 房 连续 工作 十 多 个 小 时 ， 劳 边 还 站 看 
别 叶 的 上 司 。 我 从 来 没有 做 过 一 线 工 程 师 ， 所 以 没有 经 历 过 什么 惊 心 动 
晶 的 时 刻 。 如 条 要 跟 旋 者 分 享 一 个 印象 最 深刻 的 蓉 例 ， 我 首先 想到 的 是 
一 个 不 算 紧 息 ， 却 特别 考验 人 的 问题 ， 人 至 今 想 起 来 还 心 有 余 层 。 

那 是 一 位 澳洲 客户 的 文件 服务 右 ， 它 同时 为 多 台 Linux 应 用 服务 占 
提供 NFS 访 问 。 系 统 在 实施 阶段 非常 顺利 ， 于 是 便 择 日 上 线 了 。 不 玉 的 
是 到 了 生产 环境 中 ， 应 用 服务 右 访 问 文 件 时 侦 尔 会 卡 一 下 ， 而 且 这 症状 
的 出 现 是 不 定时 的 、 稍 维 即 逝 的 。 谁 也 不 知道 接 下 来 是 什么 时 候 ， 友 生 
在 哪 台 应 用 服务 硕 上 。 经 验 丰 军 的 系统 管理 员 已 经 检查 过 应 用 服务 胡 、 
文件 服务 右 和 网 络 设备 的 所 有 日 意 ， 可 异 没 有 及 现 有 价值 的 信息 。 

老 油 条 的 工程 师 都 知道 ， 这 类 问题 是 最 “ 令 人 讨厌 ”的 ， 因 为 既 无 报 
首 信息 ， 也 不 知道 何 时 会 午 现 ， 根 本 无 从 入 手 。 大 家 宁愿 处 理 丢 数据 或 
者 宕 机 的 案 急 事故 ， 也 不 愿意 去 接手 这 类 问题 。 可 怜 的 系统 官 理 员 不 时 
锐 他 的 用 尸 埋 纺 ， 然 后 再 把 压力 转移 a 到 售后 工程 师 旱 上 。 一 线 的 售后 工 
程 师 打 了 一 个 礼拜 没有 解决 ， 只 好 升级 到 二 线 。 二 线 工 程 师 撑 了 一 个 礼 
拜 也 没有 收获 ， 最 终 找到 了 我 。 大 家 可 以 想象 当时 那 位 系统 管理 员 已 经 
有 多 人 么 诅 并 。 

问题 到 了 我 这 里 就 没 法 再 升级 了， 只 能 便 看 头 及 接 下 米 。 我 是 这 样 
分 析 充 症状 的 。 

1. 访问 文件 时 感到 卡 ， 可 能 是 文件 服务 旨 人 负载 过 重 ， 守 至 了 啊 应 
慢 ; 也 可 能 是 网 络 拥 者 ， 肥 生 了 连续 多 次 的 重 传 。 

2. 虽然 无 法 预测 问题 发 生 的 时 间 ， 但 如 果 在 业务 党 忙 时 抓 个 网 络 
包 ， 应 该 多 少 能 看 到 一 些 痪 侃 。 


当 我 把 这 个 想法 告诉 系统 管理 员 时 ， 得 到 的 回答 却 让 我 烦 感 意 
外 : “存储 上 的 网 络 包 我 已 经 抓 过 了 ， 分 析 下 来 一 点 问题 都 没有 。” 一 在 
我 以 往 接触 过 的 客户 中 ， 不 要 说 分 析 网 络 包 了 ， 很 多 人 连 抓 包 都 不 会 。 
这 个 分 析 可 菲 吗 ? 还 没 等 我 开口 ， 他 似乎 看 透 了 我 的 心思 , “网 络 包 上 
传 到 FTP 了 ， 你 也 分 析 一 下 吧 。” 

用 Wireshark 打 开 网 络 包 之 后 ， 我 习惯 性 地 弃 了 “性 能 问题 三 板 莽 ”。 

1. 单 击 Statistics-->Summary。 从 Avg.MBitsec 看 到 ， 那 段 时 间 的 流 
量 不 局， 所 以 该 存储 的 负担 似乎 并 不 重 〈 见 图 1) 。 


Display 
Display filter: None 
Ignored packets: 0 
TrafFic 二 Captuyured 4 Displaved + parked 4 
Packets 1 2966 1 3066 0D 
Betvween First and |ast packet 3,051 se 
Byg, packetslsec 4545 ,Ded 
byg, packet size 354;255 bytes 
Bytes 1134%100 
byg, bytesisec 3882643,601 
Byg, MBitisec 31.061 








图 1 


2. 单 击 Statistics-->Service Response Time-->ONC-RPC-- 
>Program:NFS Version:3--> Create Stat， 可 以 看 到 各 项 操作 的 Service 
Response Time 都 不 错 〈 见 图 2) ， 这 进一步 说 明 该 存储 并 没有 过 载 。 


a ONC-RPC Service Response Time statistics for NFS ve... 园 |lajlE4 


ONC-RPC Service Response Time statistics For MFS wersion 3: tcpdump,cap,server,cap 
F it Br; 
Index 4 Procedure 4 Call ™w MinSRT 4 Max SRT + sg SRT 
1 GETATTR B22 O000000 0.003907 
7 WRITE S32 DIO00000 -0.023433 
半 启 记 记 ESS 315. 0D.000000 0.0033058 
2 SETATTR 1 O00000 9,000000 
了 LOOKEUP 1 O000000 0,900000 








图 2 


3. 早 击 Analyze-->Expert Info Composite， 从 Error 和 Warning 里 都 没 
Wave 和 ia 
的 现象 ， 应 该 能 在 这 个 窗口 里 看 到 。 

a Wireshark: 48¢ Expert Infos 辆 四 | 困 
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图 3 


分 析 结 果 让 我 有 些 失 望 一 这 个 系统 看 起 来 如 此 健康 ， 完 全 不 像 是 会 
卡 的 样子 ， 接 下 来 该 怎么 处 理 ? 看 来 一 定 要 在 出 问题 的 时 刻 抓 到 包 ， 合 
此 之 外 ， 列 无 他 途 了 。 我 小 心 引 对 地 给 管理 员 与 了 一 封 邮 件 ， 把 分 析 疆 
琳 评 细 地 告诉 他 ， 并 且 提 出 再 次 抓 包 的 请 求 。 

等 得 回复 时 很 是 志 心 ， 因 为 有 可 能 收 到 一 堆 抱 忽 ， 没 想到 等 来 的 苋 
是 一 个 慰 帮 一 他 表示 直到 一 位 年 Wireshark 的 合作 者 非常 愉快 ， 并 且 准 备 
写 一 个 程序 来 抓 公 我 需要 的 包 。 这 个 程序 会 不 停 地 打开 文件 ， 当 出 现 卡 


的 症状 时 ， 记 录 时 间 点 并 且 自 动 停止 抓 包 。 磁 到 如 此 讲 道理 又 懂 技 术 的 
客户 ， 简 直 让 人 如 沐 春 风 。 

好 消 居 接 哇 而 全 ， 几 天 后 网 络 包 真 的 抓 到 了 ， 还 记录 了 出 问题 的 时 
间 点 。 我 满怀 希望 地 又 试 了 三 板 借 ， 预 感 这 次 一 定 能 看 到 某 些 迹 象 ， 比 
如 特别 长 的 Service Response Time 之 类 的 。 没 想到 一 番 忙 活 之 后 ， 竞 然 
和 之 前 的 分 析 结 果 一 模 一 样 一 什么 迹象 都 没 看 到 。 

不 会 是 漏 抓 了 吧 ? 考虑 到 这 位 管理 员 的 表现 非常 靠 谱 ， 应 该 不 至 于 
犯 这 样 的 小 错误 ， 我 宁愿 相信 是 自己 看 得 不 够 仔细 。 就 在 此 时 ， 我 又 收 
到 一 封 邮 件 。 原 来 他 也 分 析 守 了， 一样 没有 发 现 什 么 问题 。 同 时 也 强调 
目 己 没有 漏 抓 ， 相 信和 问题 一 定 吏 隐藏 在 包 里 。 

我 不 由 得 会 心 一 突 : 好 默契 的 回复 ! 今天 算是 过 到 对 手 了 ， 这 征 我 
工作 这 么 多 年 来 第 一 次 人 肆 到 如 此 历 害 的 角色 。 既 然 三 板 茎 没有 用 ， 只 能 
来 用 容 办 法 了 了。 我” 先 根据 问题 发 生 的 时 间 点 过 小 出 前 后 2 秒 钟 的 所 有 
包 ， 然 后 逐个 检查 。 这 下 果然 看 到 一 个 意 想 不 到 的 包 : 如 图 4 中 的 包 号 
440354 所 示 ，NES 服 务 器 172.16.2.80 给 客户 端 172.16.2.102 发 了 一 个 
Portmap 请 求 ， 咨 询 其 NLM 进 程 的 妆 口 号。 更 寞 第 的 是 这 个 请 求 竟然 没 
有 得 到 回复 。 


七 
dd353 O13-01 -or 13:4d3:55.9308]2 WwwaPP 3 D 总 :村 bb Clariion 41:w3:ba BRP 
dd 局 了 站 二 3 一 站 1 -站 了 T1343 030812 1]72,15,2.,b ir2a.16.2,102 Fortmap 


Cesinetion Frotocol Info 
Ee Who has 1r2.162.1027 Tell 172,16,2.80 

172.16.2.102 1s at OQ: O56a3: v0 :db 

wa EGETPORT Call NLMOLDOO21Y wid UDPR 


NLM 我 是 听 说 过 的 ， 是 Network Lock Manager 的 简称 。 客 户 问 用 它 
来 锁定 服务 器 上 的 文件 ， 从 而 避免 和 其 他 客户 奖 友 生 访 问 剖 突 。 一 股 都 
是 由 客户 只得 询 服务 需 的 NLM 站 口 ， 这 种 反方 问 的 状况 我 还 是 第 一 次 
见 到 。 这 个 Portmap 请 求 出 现在 这 里 虽然 有 点 突 帮 ， 不 过 似乎 可 以 急 
略 ， 因 为 我 想 不 出 它 跟 访问 文件 卡 有 什么 联系 。 

表 历 了 所 有 包 之 后 ， 仍 然 一 无 所 锋 。 我 几乎 想 放 借 了 ， 池 形 的 感觉 
就 像 交 知 时 还 解 不 出 最 后 一 道 大 题 。 但 要 真正 放弃 义 不 甘 心 ， 毕 竞投 入 
了 这 么 多 时 间 了 ， 而 且 也 对 不 起 这 么 配合 的 系统 管理 员 。 我 之 所 以 至 今 


对 这 个 案例 如 此 印象 深刻 ， 束 是 因为 工作 以 来 第 一 次 感觉 问 题 这 么 来 
手 。 

纠结 了 一 天 之 后 ， 我 还 是 决定 从 头 再 来 ， 这 次 要 更 细致 地 分 析 每 一 
个 包 。 既 然 目 前 唯一 发 现 的 异 第 束 是 那个 关于 NLM 的 Portmap 奏 询 ， 那 
就 从 它 开 始 吧 。 我 收集 了 一 些 资料 ， 重 温 了 一 过 NLM 的 工作 原理 〈 虽 
然 我 以 前 履 过 ， 但 细节 性 的 东西 一 段 时 间 没 有 接触 ， 是 很 容易 不 记 
的 ) ， 然 后 把 NLM 工 作 过 程 总 结 如 下 。 

1. 客户 端 甲 ~“NLM_LOCK_MSG request-“ NEFS 服 务 器 〈 甲 党 试 锁 
定 一 个 文件 ) 客户 端 甲 _ NLM_LOCK_RES granted .NFS 服务 器 (服务 
髓 同意 了 这 个 锁定 ) 

2. 客户 端 乙 NLM_LOCK_MSG request~ NEFS 服 务 器 〈 乙 尝试 锁 
定 同一 个 文件 ) 

客户 端 乙 NLM_LOCK_RES blocked .NFS 服务 器 (因为 该 文件 已 
经 被 甲 锁 定 ， 所 以 服务 器 让 乙 等 看 ) 

3. 客户 端 甲 NLM_UNLOCK_MSGregquest ,NFS 服务 器 ( 甲 尝 试 
释放 锁 ) 客户 端 甲 _ NLM_UNLOCK_RES granted .NFS 服务器 (服务 
锅 同 意 释放 ) 

4. 客户 端 乙 NLM_GRANTED_MSG .NFS 服务 器 (服务 器 主动 
把 锁 给 了 乙 ) 客户 端 乙 NLM_GRANTED_RES ”accept NFS 服 务 器 

( 乙 接 受 了 ) 

Wireshark 里 看 到 的 那个 Portmap 请 求 ， 发 生 在 上 面 的 哪个 步 又 呢 ? 
应 该 在 第 三 步 和 第 四 步 之 间 。 束 在 找到 答 条 的 一 镜 那 ， 我 居然 大 悟 ， 一 
下 子 知 道 问题 出 在 哪 了 。 

1. 第 三 步 之 后 ， 服 务 器 要 通过 Portmap 查 询 乙 的 NLM 端 口号 〈 也 就 
是 那个 次 寞 的 包 ) ， 得 到 回复 后 才能 进入 第 四 步 。 

2. 假如 得 询 端 口号 失败 ， 则 第 四 步 无 法 进行 ， 也 驶 意味 看 服务 天 
没有 办 法 把 锁 给 乙 。 

3. 由 于 乙 得 不 到 锁 ， 所 以 只 能 继续 等 到 超时 为 止 。 这 对 于 应 用 程 


序 来 说 ， 束 是 卡 住 了 。 

4， 访 问题 只 用 生 在 多 个 客户 问 同 时 访问 同一 文件 的 情况 下 ， 上 所 以 
表现 为 侦 友 症状 。 

5. 乙 没 有 啊 应 Portmap 奏 询 ， 很 可 能 是 包 航 防火 场 拦 帘 了 了 。 

我 来 不 及 写 邮 件 ， 束 迫 不 及 每 地 抓 起 电话 ， 把 分 析 结 果 告 诉 珊 半球 
的 系统 官 理 员 。 他 也 非常 兴奋 ， 很 快 束 修改 了 防火 载 设置 ， 从 此 再 也 没 
有 用 户 报 告 过 卡 的 现象 。 

事情 是 否 到 此 结束 了 呢 ? 这 个 症状 的 确 结束 了。 不 过 用 户 叉 有 反馈 
男 一 个 症状 ， 这 一 人 次 连 Wireshark 都 无 能 为 力 ， 最 后 还 是 Patrick 专 门 写 了 
段 脚 本 才 解 决 的 。 由 于 这 个 新 问题 没有 多 少 借鉴 晶 义 ， 所 以 本 书 略 过 不 
讲 。 但 是 与 脚本 所 用 到 的 tshark 工 具 非 第 有 用 ， 我 们 将 在 《学 无 止境 》 
一 文中 详 加 介绍 。 


学 无 止境 


当 你 用 Wireshatk 解 决 了 一 个 叉 一 个 难题 时 ， 再 谦虚 的 人 也 会 目 信 心 
膀 胀 ， 以 为 没有 什么 问题 是 解决 不 了 的 。 可 展 这 只 是 铺 笼 ， 因 为 
Wireshark 的 硝 有 它 的 应 用 极限 。 

我 是 什么 时 候 意 识 到 这 一 点 的 呢 ? 大 概 两 年 前 我 肆 到 过 这 样 一 个 问 
题 : 接收 方 不 时 回复 “TCP ”Window=0” 给 发 送 方 ， 导 致 发 送 方 只 能 停 下 
来 等 待 。 整 个 传输 过 程 的 Sequence Number 曲 线 类 似 于 图 1 所 示 ， 其 中 水 
平 部 分 表明 接收 方 当时 正在 发 “TCP Window=0”。 


团 TCP orph 1: 2013.peap 1011147. dd0165 -> 10.iL94dad5 
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图 1 
为 了 给 客户 出 一 份 专业 的 分 析 报 告 ， 我 需要 统计 出 “TCP 
Window=02 所 导致 的 停 沛 总 共有 多 少 曼 秒 。 通 过 图 1 的 模 坐 标 来 统计 显 
然 不 够 精确 ， 所 以 我 不 得 不 把 所 有 的 问题 包 过 小 出 来 ， 逐 段 统计 俘 洲 的 


时 间 。 像 狠 1 这 样 只 有 了 两 段 俘 溃 时 间 的 情况 还 好 ， 磁 到 有 有 几 十 段 的 时 候 
束 很 费时 了 了 。 

为 什么 我 要 人 工地 去 做 如 此 人 徐 音 的 重复 苑 动 呢 ? 这 明显 更 运 合 由 程 
序 来 完成 ， 但 是 Wireshark 没 有 提供 这 项 功能 。 几 天 后 我 随口 同 Patrick 提 
起 了 这 个 问题 ， 没 想到 他 立即 分 至 给 我 一 段 肢 本。 我 只 需要 运行 以 下 命 
令 ， 该 脚本 束 可 以 把 总 停 浏 时 间 计 算出 来 了 。 
$ tshark -n -r <tcpdump_name> -z 
'proto,colinfo,frame.time_relative,frame.time_relative' -z 
proto,colinfo,tcp.ack && (tcp.srcport == <source_port> && tcp.dstport == 
<destination_port>),tcp.ack' -z 'proto,colinfo,tcp.window_size && (tcp.srcport == 
<source_port> && tcp.dstport == <destination_port>),tcp.window_size'lawk -f 
<script> 

<script> ” 指 的 束 是 Patrick 分 圣 的 脚本 。 由 于 扁 幅 所 限 ， 我 束 不 把 脚 
本 内 容 贴 出 来 了 了， 这 也 不 是 本 文 的 重点 。 我 们 真正 要 关注 的 是 上 和 面 用 到 
的 tshark 命 令 ， 它 相当 于 Wireshark 的 命令 行 版 本 。 和 图 形 界 和 面相 比 ， 命 
令 行 有 一 些 先天 的 优势 。 


。 如 上 例 所 示 ， 命 令 行 的 输出 可 以 通过 awk 之 类 的 方式 直接 处 理 ， 
这 是 图 形 界 面 无 法 实现 的 。 有 一 些 高 手 之 所 以 说 tshark 的 功能 比 
Wireshark 强 大 ， 也 大 多 出 于 这 个 原因 。 


。 编辑 命令 虽然 这 时 ， 但 是 编辑 好 之 后 可 以 反复 使 用 ， 甚 至 可 以 写 
成 一 个 软件 。 比 如 我 经 党 需要 进行 性 能 调 优 ， 那 束 可 以 写 一 段 程序 来 完 
成 本 书 多 次 提 到 过 的 三 板 和 借 (Summary, Service Response Time 和 Expert 
Info Composite〉。 拿 到 一 个 性 能 相关 的 包 之 后 ， 直 接 运 行 该 程序 束 可 
以 得 到 三 板 状 结果， 这 比 起 用 Wireshark 快 多 了 ，。 


| tshark 输 出 的 分 析 文 本 大 多 可 以 直接 写 入 分 析 报 告 中 ， 而 


Wireshark 生 成 不 了 这 样 的 报告 。 比 如 说 ， 我 想 统 计 每 一 秒 钟 里 CIFS 操 
作 的 Service Response Time， 那 只 要 执行 以 下 命令 束 可 以 了 ， 如 下 例 所 
人 钞 。 


tshark -n -qd -r tcpdump.cap -z "10,stat,1.00,AVG(smb.time)smb.time" 


IO Statistics 

Interval: 1.000 secs 
Column #0: AVG(smb.time)smb.time 
| Column #0 

Time | AVG 
000.000-001.000 0.008 
001.000-002.000 0.007 
002.000-003.000 0.007 
003.000-004.000 0.007 
004.000-005.000 0.014 
005.000-006.000 0.001 
006.000-007.000 0.003 
007.000-008.000 0.005 
008.000-009.000 0.001 
009.000-010.000 0.001 
010.000-011.000 0.000 
011.000-012.000 0.000 


012.000-013.000 0.001 


这 个 结果 守 入 Excel, 又 可 以 生成 各 种 报表 。 


。 和 其 他 软件 一 样 ， 命 令 行 往往 比 图 形 界 面 快 得 多 。 比 如 现在 有 一 
个 很 大 的 包 需 要 用 IP 192.168.1.134 过 滤 ， ee 的 话 完 得 打开 
包 ， 再 用 ip.addr==192.168.1.134 过 滤 ， 最 后 保存 结果 。 这 三 个 步骤 都 很 
绩 时 ， 但 是 tshark 用 下 和 面 一 条 命令 束 可 以 完成 了 。 


tshark -r tcpdump.log -R "ip.addr==192.168.1.134 " -w tcpdump.log.filtered 
因为 上 述 这 些 优势 ， 一 位 工程 师 可 能 上 手 tshark 之 后 很 快 就 会 舍弃 
Wireshark。 征 的 ， 驳 是 本 书 所 极力 推荐 的 Wireshark。 学 无 止境 ， 当 你 
掌握 了 下 人 够 多 的 经 验 时 ， 吏 完全 可 以 忽略 Wireshark 的 友好 寞 面 ， 转 而 退 
求 更 高 效 ， 也 更 复杂 的 tshark。 
tshark 的 入 门 并 不 难 。 在 安装 好 tshark 的 操作 系统 上 (安装 Wireshark 
的 时 候 也 默认 安装 tshark) ， 执 行 “tshark -h” 就 可 以 阅读 使 用 说 明了 。 有 
Wireshark 经 验 的 读者 应 该 不 需要 我 来 解析 这 些 说 明 。 本 文 要 分 至 的 ， 是 
一 些 从 使 用 说 明 上 学 不 到 的 技巧 。 
1， 如 何在 Windows 命 令 行 中 搜索 tshark 的 输出 ? 


我 建议 安装 含有 ggrepH 上 的 Windows Resource Kit， 人 然后 束 可 以 用 ggrep 
来 搜索 了。 如 图 2 所 示 ， 我 希望 搜索 mount.pcap 中 含有 “code” 字 从 串 的 一 
个 包 ， 束 可 以 用 ggrep 找 出 来 。 


国 Administrator CWindowssystem3acmd.exe 


Ci\book\book material\NFSS tshark -Fr mount .pcap lqgrep -ea code < 
134 1 .32.1p6.159 -> 1 .32 196.62 9.609375 HOUNT y3 MNT Call /code 





CL:\book\book_ material \NFS> 


图 2 


2， 本 书 介绍 过 的 性 能 问题 三 板 径 如 何 通过 命令 实现 ? 
a，Summary 可 以 通过 capinfos 命 令 查询 ， 如 网 3 所 示 。 


Administrator: CWindowssystem3\cmd.exe 


CGC:\book\book material‘\NFS>capinfos mount .pcap 


File name: 

File type: 

File encapsulation: 
Packet size limit: 
Number of packets: 
File silize: 

Data size: 

Lapture duration: 
Start time: 

End time: 

Data byte rate: 
Data bit rate: 
Mverage packet silize: 


huerage packet rate: 


《上 E 四 


mount. pcap 
Hireshark/tcpdump/.. 
Ethernet 

file hdr: i516 bytes 
239 

0 bytes 

18616 bytes 

17 seconds 

Non Jul 15 1#4:21:69 2013 
Hon Jul 15 18:21:26 2013 
1088.17 bytes/sec 

8641 .33 bits/sec 

2717.39 bytes 

13. 攻 EE Dace sr See 


- libpcap 








注意 : 
非 你 手动 义 挥 它们 。 


安装 Wireshark 的 时 候 ， 


图 3 


轩 认 会 附 币 capinfos 和 Editcap 等 工具 ， 除 


b. 获取 Service Response Time 则 要 视 不 同 协议 而 定 ， 比 如 NEFS 协 议 


可 以 用 图 4 中 的 命令 


En dministrator CMWiIndows\system32cmd,exe 
5 


CsbocoksbpooKk _ mater1lalsNFS>tshark -nm -9q -Fr mount .pcap -Zz 


ONG-—RPE Program Statistics: 


“rpc ,Programs 


Program Yers1on 
Portmap {1660G) 2 
NFS{1600603) 3 
HOUNT(160005 | 3 


Calls 


Man SRT 
2 0.000aan 
#4 .9690800 
2 和 .000000 


9. 0090000 
a0.003901 
.8009088 

















和 


CIFS 协 议 只 
D) 。 





图 4 


国 Administrator: CWindows\system32\cmd,ewe 


CL:\book\book material\LIFSs>tshark -n -qa -rr cifs.cap -z ~ 


人 setup fnda 


J 


Min SRT 
0. 00682 
0 . 060074 
0 . 090904 
日 . 09008 16 





0.006989 


要 把 图 4 中 双 引 号 中 的 内 容 改 为 “smb,rtt,” 即 可 〈 见 图 


0 .003933 


pe 


图 5 


局 | 


. 重 传 状 况 要 用 到 tcp.analysis.retransmission 命 令 ， 注 意图 6 中 这 
pe 了 超时 重 传 和 快速 香 传 两 种 情况 。 


dmirstetern CNNindowy system? Tmad ese 
Cbook\book material\tcp titshark -re -dy 一 产 Fetran.cabp -~z "io,stat,0.itcp.analvsis.retransmlsslor 


1 
,EE i En EE En EE En EE i a i i i i i a El i a en 


| 工 U Statistics 
Golumn #6: tcp.,anelysis,retranswiss1ion 


0 9096- 


Cbook book paterial\icpny, 





配 友 状况 则 只 要 把 “Tetransmissionm”*” 改 成 out of _order”( 见 图 


i WE 5 有 
国 Sdministrator CNMWindowssystem3 omd ex 











I0 Statistics 


Column HBO: tcp,analysis,out of _ corder 


Cbookvbook_ material\tcps?s 





3， 如 何 统 计 一 个 包 里 的 所 有 对 话 ? 


“conv，XXX2" 承 可 以 做 到 ， 其 中 xxx 可 以 是 ttp、udp、eth 或 者 记 〔〈 见 


0 





TCP Conversations 
Filter: <No Filter» 
| Frames Bytes | | Frames Bvtes | 


1 相交 四 .1 全 :9 1 .1]1& .1 的 .11 :818 96 7122 bbalb 92915932 BIa3l 1019891656 
18.11& .138,100. 4408 18.,118.,148.,100.:8888 福生 向 7909582 S8019 28959936 
10.114.100.100:2049 18, 11 ,1 人 0.1: 69 宁 白 123965 11359791 1889] 19639898 — 
18.118.188.108.:2089 18.118.188.11:815 外 rad 17565165 121l 11989219 
18.,118.,100.,100: e049 18.,114.,188.,10:821 29b 和 工 6 忆 村 名 生生 看 41lb8 J683576 = 


4. 如 来 一 个 包 大 得 连 tshark 部 无 法 打开 ， 有 没有 办 法 切 分 成 多 个 ? 
有 办 法 ， 可 以 使 用 editcap 命 令 来 做 到 。 我 党 用 “editcap <input file> 


<output file> -i <seconds per file>” 或 者 “editcap <input file> <output file> -c 


<packets per file>” 两 种 方式 。 图 9 所 示 的 例子 以 每 8 秒 为 间隔 切 分 了 这 个 
包 。 


Mdministrator: 已 WEIdGWSVSYsterml ercnmvdEXe 
:book\book_material“\tcpv>editcap retran.cap output ,cap -1 8 


:book\book_material\tcps>dir outputs 
Volunme In drive CGC has no label. 


Yolume Serial Number 1s 4434—39C9 
Directory of CGC:ibook\book material\tcps 


aid 20ils Ba: 22 PH 8 287 .628 output OM 20130115095628. cap 

$022,090 output_ 000601 260190115095636. cap 

17,918,229 output_ O0002 20130110095644 .cap 

output O003 20130]15090602.cap 

output GOH _ 2601911o095 71708.cap 

,139 output O0005 20130115095 1788.cap 

四 可 站 二 和 output dO006 20130l15095 176.cap 
(s] 170, 079. 995 bytes 

日 a 17,741,4630,784 bytes free 


"book\book material\tcpoy, 
| 有 





除了 这 里 介绍 的 这 些 ，tshark 下 的 网 络 分 析 拉 巧 还 有 很 多 。 利 用 管 
道 (Pipeline ) i 以 结合 awk、sed 等 命令 实现 更 为 强大 的 功能 ， 值 得 
每 位 工程 师长 期 学 习 。 如 末 学 习 过 程 中 过 到 任何 问题 ， 建 议 查 询 
Wireshark 的 官方 说 明 ， 地 址 为 http:/www. wireshark.org/docs/man- 
pages/tshark.html。 驳 算 我 这 样 的 老 用 户 还 经 香 能 从 中 学 到 新 知识 呢 。 


一 个 扩 林 图 的 目 日 


当 我 在 台灯 下 与 到 这 一 遍 时 ， 不 由 得 想到 几 个 月 后 ， 另 一 束 灯 光 下 
的 读者 正 翻 到 这 一 页 ， 踊 越 时 空 的 交流 中 是 奇妙 。 我 要 感谢 你 购买 本 书 
并 坚持 读 a 到 这 里 。 作 为 小 众 图 书 的 作者 ， 我 最 珍视 的 是 读者 对 本 书 内 容 
的 喜爱 ， 也 和 硕 望 你 在 疯 读 中 有 所 收获 。 最 后 一 遍 ， 束 让 我 们 未 记 那 些 乏 
味 的 术语 ， 谈 些 有 趣 一 点 的 话题 吧 。 

关于 技术 ， 当 下 的 热点 是 Full Stack Engineer， 翻 译 过 来 就 是 全 栈 工 
程 师 。 我 的 理解 束 是 从 前 剖 到 后 疾 ， 从 软件 到 人 硬件 都 恒 的 通才 。 其 实在 
全 栈 的 概念 出 现 之 前 ， 关 于 技术 三 撒 和 深 撒 的 讨论 束 从 来 没有 仿 止 过 。 
在 时 间 有 限 的 情况 下 ， 究 竟 是 应 该 扩展 广 虔 ， 各 种 技术 痢 去 涉 狂 ， 还 是 
把 所 有 精力 都 投入 在 一 门 技术 上 呢 ? 我 个 人 更 倾 回 于 后 者 ， 因 为 当 菜 项 
搁 术 学 到 了 较 深 的 程度 后 ， 了 眼界 束 不 一 样 了 ， 再 学 其 他 的 搁 术 也 容易 达 
到 关 似 境界 。 以 本 书 提 到 的 协议 为 例 ， 如 采 你 已 经 精通 CIFS， 那 很 可 能 
和 加 点 拨 束 能 完全 理解 NFS; 同样 如 果 你 理解 了 网 络 的 分 层 和 流 控 ， 再 
学 习 存 储 的 层次 和 缓存 也 比较 容易 。 但 假如 一 个 人 连 最 擅长 的 技术 都 小 
答 辑 止 ， 那 学 习 其 他 技术 也 会 俘 留 在 表面 上 。 我 有 位 技术 出 色 的 朋友 用 
过 一 个 生 劲 的 比喻 来 说 明 这 个 问题 : 技术 深度 和 广度 的 关系 ， 束 像 登 山 
时 的 高 度 和 视野 。 假 如 你 爬 到 半山 腰 怠 停 下 来 晃 望 ， 吏 只 能 看 到 一 尘 的 
人 钢 野 ， 但 如 果 埋 涉 息 到 山 项 ， 一 抬头 便 是 无 边 的 风景 。 

关于 新 水 ， 是 很 多 工程 师 目 优 目 多 的 口水 话题 。 不 知道 从 何 时 开 
台 ， 大 家 似乎 都 和 澳 得 目 己 被 亏 待 了 了。 微 卫 上 流传 各 种 目 呈 的 段 季 ， 比 
如 “今天 你 编程 时 流 的 汗 ， 束 是 当初 填 记 愿 时 脑子 进 的 水 ”我 也 曾经 开 
玩 实说 目 己 的 天 文 名 是 “Low Payman”; 我 有 位 年 薪 40 多 万 的 同事 ， 
MSN 签名 是 “少壮 不 努力 ， 老 大 于 IT”， 还 有 一 种 流行 的 说 法 ， 认 为 在 中 
国 不 适合 走 技 术 路 线 ， 奋 则 为 什么 在 国外 才 有 日 友 仓 仓 的 包工 程 师 ? 看 


过 太 多 类 似 段 子 之 后 ， 我 澳 得 这 种 群体 心态 已 经 有 所 矫情 了 。 无 论 在 什 
么 国家 ， 工 程 师 都 排 不 上 收入 最 高 的 群体 。 相 比 国 外 ， 中 国 工 程 师 “地 
位 已 经 算 局 了 了， 比如 类 国 工 程 师 的 收入 惑 完全 比 不 上 律师 和 医生 等 职 
业 ， 但 在 中 国 就 未 必 古 这 样 。 中 国 也 不 十 没 有 老 工程 师 的 友 展 空间 ， 而 
生 因 为 第 一 批 工 程 师 还 没有 变 老 。 热 爱 目 喇 的 人 其 实 也 心 知 肚 明 一 他 们 
的 新 水 完全 足以 维持 体面 的 生活 ， 比 如 那 位 "少壮 不 努力 ”的 同学 ， 一 直 
在 上 海 这 个 大 染 抽 过 看 纸 酬 金 迷 的 日 子 。 而 真正 徒 念 悉 的 职业 ， 恕 介 根 
本 没有 心情 目 我 编排 …… 我 认为 目 呈 是 一 种 难得 的 幽 秋 ， 但 是 当 一 个 群 
体 的 目 唱 都 专注 在 薪水 上 ， 听 上 去 瓯 有 点 无 聊 。 

天 于 办 公 室 政治 ， 那 真 不 是 属于 我 们 的 成 场 。 务 子 的 "天心 者 治 
人 ， 玫 力 者 治 于 人 ”对 中 国 影响 太 过 深远 ， 我 不 止 一 位 朋友 从 扩 术 路 线 
改 走 官 理 路 线 的 时 候 ， 以 这 句 话 作为 座 右 饮 。 而 在 我 看 来 ， 上 自从 人 类 进 
化 到 可 以 坐 在 办 公 室 里 “大 力 ”之 后 ,，“ 筋 心 ” 束 缺乏 吸引 力 了 。 人 类 比 电 
脑 狼 诈 太 多 ， 还 十 官 电脑 管 心 。 我 们 残 把 办 公 室 政治 这 样 大 心 的 活 儿 留 
给 走 管 理 路 线 的 同事 吧 ， 只 要 不 站 队 不 说 是 非 ， 用 技术 帮助 所 有 人 ， 目 
然 会 成 为 单位 里 最 党 章 人 敬 的 人 。 

关于 创业 ， 我 想 没 有 哪个 行业 比 IT 界 更 热衷 于 此 了 。 或 许 是 因为 这 
一 行 有 过 太 多 轻易 成 功 的 故事 ， 所 以 工程 师 们 酸 屋 欲 劲 ， 仿 佛 每 个 人 都 
在 想 ， 连 一 个 胎 无 技术 含量 的 村 航 网 站 部 能 饿 融 价 收购 ， 满 腹 才华 的 我 
能 干 出 怎样 惊天 动 地 的 事业 ? 于 是 有 记者 开始 对 职业 不满 ， 沉 得 无 论 如 
何 应 该 出 去 问 闻 ， 寻 找 目 己 被 封印 的 灵 现 ,他们 振 辟 一 挥 ， 紧 气 万 丈 地 
说 “ 走 ， 创 业 去 ! ”其 实 我 个 人 是 非常 演 芭 这 样 元 满 沿 情 的 人 生 的 ， 无 从 
看 过 太 多 失败 的 例子 ， 总 筑 得 创业 的 成 功率 被 局 估 。 有 位 朋友 到 福建 承 
包 一 片山 林 之 后 ， 很 快 友 现 这 东西 并 没有 想象 中 那么 赚钱 。 终 于 在 化 光 
所 有 积 墓 之 后 ， 明 及 了 “个 如 归 去 ”的 仿 涉 。 里 然 听 上 去 颅 有 特意， 其 实 
心里 还 是 很 愧 悔 的 ， 最 后 不仅 回 到 原来 公司 ， 还 坐 到 原来 的 位 子 上 。 妆 
然 成 功 者 也 是 有 的， 不 要 妨 嫉 他 们 ， 因 为 这 是 冒 看 风险 得 到 的 。 

天 于 跳槽 ， 除 了 印度 之 外 ， 我 还 没有 见 过 比 中 国 工 程 师 更 爱 跳槽 的 


群体 。 由 于 每 吡 槽 一 次 基本 能 加 新 30%， 的 确 让 人 难以 淡定 地 呆 在 一 个 
同位 上 。 不 过 在 我 看 来 ， 频 蚂 跳 权 所 付出 的 代价 恕 避 局 于 这 后 收益 ， 因 | 
为 很 快 融会 及 现 无 处 可 跳 了 了。 而 且 更 大 的 副作用 是 ， 多 次 换 工 作 导 致 了 
各 种 拉 术 部 只 学 a 到 反 毛 ， 守 醒悟 过 来 已 经 瞻 了 。 如 果 攻 个 新 职位 吸引 你 
的 元 点 只 是 加 新 ， 我 建议 三 思 而 行 。 

天 于 理科 生 的 骄 做 ， 在 工程 师 群 体 中 ， 有 小 部 分 年 轻 人 人 至今 还 保持 
看 源 目 志 ”中 理科 班 的 目 桶 感 。 比 如 看 到 一 本 精彩 的 科 约 小 说 ， 便 筑 得 
文科 生 不 可 能 恒 ， 如 末 新 来 的 领导 不 是 理工 科 出 身 ， 融 感叹 所 处 的 并 非 
拉 术 张 动 型 公司 ; 最 让 我 吃惊 的 一 次， 是 一 位 DBA 质 颖 个 异 技 术 的 销售 
人 员 为 什么 地 位 那么 遇 。 这 种 错误 的 认 知 显然 源 于 交际 疾 子 的 狭 院 ， 对 
非 技 术 人 员 的 能 力 缺 乏 了 解 。 其 实 你 在 调试 代码 时 ， 他 们 同样 在 推 珊 文 
案 ; 你 在 和 餐 果 上 只 官 品 末 海 侈 ， 他 们 却 要 左右 着 源 ， 让 所 有 刁 客 感到 满 
意 ; 你 结交 朋友 只 看 心情 吕 好 ， 他 们 在 朋友 团 里 只 说 “正确 ”的 话 ， 水 远 
如 沐 春 风 地 倾 昕 ;， 你 在 内 部 会 议 上 友 诗 部 显 拘谨， 他 们 面 对 突 如 其 来 的 
话 价 也 能 侃侃 而 谈 .…... 坚 无 疑问 ， 非 拉 术 工作 的 “ 拉 术 含量 ”一 后 部 不 
低 。 六 好 随 看 阅历 的 增长 ， 大 多 数理 科 生 部 能 改 挥 这 个 毛病 。 

天 于 生活 ， 开 男 们 已 经 被 打上 了 太 多 标 釜 : 宅 、 木 讷 、 和 生活 简单 。 
这 当然 是 一 种 俩 见 ， 至 少 我 身边 的 朋友 融 不 是 这 样 。 不 过 比 起 国外 的 工 
程 师 群体 ， 我 们 的 业余 生活 似乎 是 单调 了 些 。 比 如 与 我 合作 多 年 的 国外 
同事 中 ， 有 组 乐队 的 、 当 冰球 教 绕 的 、 玩 帆船 的 、DIY 人 论 园 的 .…... 有 些 
朋友 对 此 有 北 么 个 已 ， 以 为 肥 达 国家 才 玩 得 起 多 样 化 的 娱乐 ， 对 此 我 不 到 
柯 同 。 比 如 中 国学 习 乐 邢 的 人 数 早 吏 全 球 第 一 ， 在 我 屈指 可 数 的 文 同 事 
中 ， 人 至少 有 三 位 在 小 时 候 考 过 钢 稚 十 级 。 我 所 住 的 小 区 一 楼 都 配 有 了 瑚 两 
的 大 院子 ， 园 艺 条 件 极 佳 ， 只 是 户 户 都 铺 砖 便 化 了 .…… 所 以 细 想 起 来 ， 
经 济 上 并 不 是 主因 ， 只 是 不 够 热情 雪上 了 。 工 程 师 本 来 融 是 最 擅长 DIY 的 
群体 ， 只 要 行动 起 来 ， 完 全 可 以 让 业余 生活 更 加 丰富 ， 成 为 一 个 更 加 有 
趣 的 人 。 


